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谈 异 本 书 


还 在 复制 粘贴 找 数据 ? 


HRPE MIE? 


DII} 


我 想 要 这 个 网 站 上 的 数据 , 该 怎么 办 ?打开 网 站 , 复制 , 打开 文本 ,粘贴 …… 重 复 、 重 复 、 
重复 。 


一 一 费时 、 费 力 、 错 误 多 ! 


道理 我 都 懂 , 可 是 要 怎么 做 ? 这些 数据 我 都 想 要 , 可 是 要 怎么 开始 ? 本 书 不 仅 介 绍 Scrapy 


爬虫 的 原理 ， 而 且 还 给 出 实战 生 例 让 读者 应 用 它们 。 


本 书 真 的 适合 你 吗 ? 


一 一 爬虫 的 使 用 才 是 硬 道理 。 


本 书 帮 你 从 零 开 始 学 习 Scrapy 爬虫 技术 ， 从 基本 的 网 络 请 求 原 理 到 抓 取 数据 的 保存 ， 从 


单 页 面 数据 的 下 载 到 全 站 数据 的 爬 取 , 从 文本 文档 到 数据 库存 储 , 本 书 介绍 了 实际 使 用 中 的 各 


— EREA? 没关系 ， 本 书 给 出 了 从 零 开始 学 习 的 新 手 方 案 。 


种 基础 知识 。 
本 书 涉及 的 技术 或 框架 
Python HTTP 
Requests JSON 
BeautifulSoup XPATH 
Selenium CSS 
本 书 涉及 的 示例 和 案例 
抓 取 知 乎 热 榜 
名 言 网 站 抓 取 
博客 园 Python 类 文章 抓 取 
深圳 市 社会 保障 局 下 载 中 心 文件 下 载 
链 家 数据 保存 至 MongoDB 
豆 办 使 用 Cookies 登录 


抓 取 cnBeta 科技 类 文章 


MySQL 
MongoDB 
Visual Studio 


Chrome 调试 


伯乐 在 线 订阅 源 数 据 抓 取 
伯乐 在 线 最 新 文章 抓 取 保存 
起 点 小 说 网 站 小 说 封面 抓 取 
豆 为 模拟 提交 表单 登录 

使 用 代理 与 统计 链 家 小 区 信息 
名 言 网 站 数据 统计 

IT 之 家 新 闻 抓 取 


猫眼 电影 top100 抓 取 并 发 送 邮件 SegmentFault 全 网 用 户 信息 抓 取 


本 书 特点 


(1) 本 书 不 论 是 爬虫 基础 知识 的 介绍 还 是 实例 的 开发 ， 都 是 从 实际 应 用 的 角度 出 发 ， 精 
心 选择 典型 的 例子 ， 讲 解 细致 ， 分 析 透 彻 。 

(2) 深入 浅 出 、 轻 松 易 学 ， 以 实例 为 主线 ， 激 发 读者 的 学 习 兴 趣 ， 让 读者 能 够 快速 学 会 
Scrapy 爬虫 的 实用 技术 。 

(GO 技术 新 颖 、 与 时 俱 进 ， 结 合 时 下 实用 的 技术 ， 如 Requests, BeautifulSoup, Scrapy, 
使 读者 能 够 真正 运用 到 实际 工作 中 。 

(4) 贴近 读者 、 贴 近 实 际 ， 大 量 成 熟 的 第 三 方 库 和 框架 的 使 用 和 说 明 ， 帮 助 读 者 快速 找 
到 问题 的 最 优 解决 方案 ， 书 中 很 多 实例 来 自作 者 常用 的 数据 源 。 


示例 代码 下 载 


本 书 示例 代码 请 扫描 二 维 码 获得 。 如 果 下 载 有 问题 ， 请 
联系 booksaga@163.com, 邮件 主题 为 “Scrapy 网 络 爬 虫 实战 ” 


本 书 适 用 谍 者 


Scrapy 网 络 爬 虫 初学 者 

从 事 Web 网 络 数据 分 析 的 人 员 
从 事 数 据 存 储 的 工作 人 员 
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Python 开发 环境 的 搭建 


Scrapy 是 使 用 Python 编写 的 人 息 虫 框架 ， 在 使 用 Scrapy 之 前 ， 需 要 搭建 开发 环境 。 本 章 将 为 大 
家 介绍 Python 的 安装 以 及 一 些 实用 的 编辑 器 的 安装 ， 以 方便 我 们 后 续 的 开发 工作 。 熟 悉 Windows 
系统 的 读者 可 以 选择 在 Windows 上 搭建 本 书 开 发 环境 。 

本 章 的 主要 知识 点 有 : 

e Python 安装 

e PyCharm 编辑 器 安装 

e Visual Studio 编辑 器 安装 


1.1 Python SDK 安装 


Python 是 跨 平台 语言 ， 可 以 运行 在 Windows. Mac 及 Linux/UNIX 系统 上 ， 因 此 编写 的 代码 在 
平台 上 没有 运行 的 限制 。 目 前 ，Python 有 Python 2 和 Python 3 两 个 版 本 ， 不 笠 的 是 两 个 版 本 很 多 
地 方 不 兼容 。 由 于 Python 2 即将 停止 支持 ,而 越 来 越 多 的 库 已 经 支持 Python 3, 况且 Python 3 也 提 
供 了 很 多 Python 2 没有 的 新 功能 ， 因 此 本 书 使 用 Python 3 搭建 环境 。 


1.1.1 在 Windows 上 安装 Python 
首先 从 Python 官网 Chttps://www.python.org/downloads/) 下 载 安装 包 ， 本 书 使 用 的 是 3.6.3 版 
本 ， 读 者 也 可 以 下 载 更 新 的 版 本 。 下 载 后 文件 名 为 python-3.6.3-amd64.exe， 双 击 进行 安装 。 


(1) 在 安装 时 先 勾 选 Add Python 3.6 to PATH 复 选 枉 ， 再 选择 Customize installation 选项 ， 如 
图 1.1 所 示 。 
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D» Python 3.6.3 (64-bit) Setup 


Install Python 3.6.3 (64-bit) 


Select Install Now to install Python with default settings, or choose 
Customize to enable or disable features. 


9 Install Now 
CAUsersXtestAppDataVLocalProgramsyVPythonVPython36 


Includes IDLE, pip and documentation 
Creates shortcuts and file associations 


— Customize installation 
Choose location and features 
n 
for 
WS 


Install launcher fcr all users (recommended) 


Add Python 3.6 to PATH c 


图 1.1 Python 3.6 安装 首页 
(2) 务必 选中 pip 复 选 枉 ， 单 击 Next 按钮 进行 安装 ， 如 图 1.2 所 示 。 


D» Python 3.6.3 (54-bit) Setup 


Optional Features 


M Documentation 


nstalls the Python documentation file. 


alls pip. whic 
end IDLE 

nstalls tkinter and tne IDLE development environment 

[Zl Python test suite 

nstalls the standard library test suite. 

[4 py launcher for all users (requires elevation) 


nstells the global py launcher to make it easier to start Python. 


puthon 
windows 


L2 pip 选项 
G) 选择 安装 路 径 ， 默 认 安 装 即 可 。 打 开 命令 提示 窗口 ,输入 python, Zr:H34 Python 版 本 号 ， 
则 进入 Python 交互 页 面 “>>>”， 说 明 安装 成 功 ， 如 图 1.3 所 示 。 


C\Windows\system32\cmd.exe - python 


oft Windows [hkz 10.0.17 134. 112 ] 
8 Microsoft Corporations REMAIN] 。 


3:11:49) [MSC v. 1900 64 bit (AMD64)] on win32 


se for more information. 


1.3 Python 3.6 安装 检测 


1.1.2 在 Ubuntu E X Python 


本 书 Linux 发 行 版 使 用 的 是 Ubuntu 18.04， 读 者 也 可 选择 其 他 Ubuntu 版 本 或 者 其 他 Linux 发 
行 版 。Ubuntu 18.04 已 经 安装 好 了 Python 3， 版 本 为 3.6.5。 打 开 终 端 ， 输 入 python3 命令 ， 如 图 1.4 


所 示 。 


scrapy(bmypc: ~ 
文件 (F) 编辑 ([E) 查看 (V) 3: TUNE EUG 
To run a comnand as administrator (user "root"), use " 
See "man sudo root" for details. 


:~S python3 
3.6.5 (default, Apr 


sudo «command-" 


1 2018, 05:46:30) 
7.3.0] on linux 
e "help", "copyright", "credits" or "license" 


for more information. 


1.4 Python 3.6 安装 检测 
这 里 我 们 需要 手动 安装 pip， 
运行 pip3， 结 果 如 图 1.5 所 示 。 


使 用 命令 sudo apt install python3-pip 进行 安装 ， 安 装 完 成 之 后 ， 


scrapyamypc: ~ 


Uninstall 


Output installed packages in requirements format. 
Li installed packages. 
- information about installed packages. 
y installed packages have compatible 
search PyPI for packages 
Build w 


dependencies. 


heels from your requirements. 
compute hashes of 


package archives 


A helper command used for command complet 
Show help for commands 


Show help. 


Run pip in an isolated mode, 
environment 
Give 


Va 
more 


tgnor ing 
tables and user configu 
output. Option is additive, 
used up to 3 times. 

--version Show version and 

quiet Give 
used 

--log «path» 
--proxy «proxy» 


and 
LE. 

less output. Option is additive, and can be 
up to 3 times (corresponding to WARNING, 
ERROR, and CRITICAL logging levels 

Path to a verbose appending log. 

ecify a proxy 

--retries <retries 


in the form 


timeout <SeC> 


Oxy .server:port. 
number of retries h connection should 
r It (default 5 times) 
SE socket timeout (dt ult 15 seconds) 
-exists-actton <action> Default action when a path al 
(s)witch, (i) 


ready exists 
janore, (w)ipe, (b)ackup, (a)bort. 


图 1.5 pip 安装 检测 


1.2 ”安装 开发 工具 PyCharm 社区 版 


高 工作 效率 ， 编 者 使 用 的 是 PyCharm 这 款 编辑 器 。PyCharm 分 为 社区 版 和 专业 版 ， 社 区 版 为 免费 
版 本 ; 专业 版 需 付 费 ， 并 且 提 供 了 更 多 的 功能 。 
(1) 进入 PyCharm 下 载 页 面 ， 以 安装 Windows 版 为 例 ， 


安装 好 Python SDK 之 后 ， 我 们 需要 一 个 方便 的 IDE 来 编写 脚本 。 一 个 好 的 IDE. 能 极 大 地 提 
i 针对 有 息 虫 开发 来 说 ， 社 区 版 已 经 足够 使 用 了 。 


下 载 社区 版 安装 包 ， 如 图 1.6 所 示 。 
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PyCharm What's New Features Docs & Demos Buy 


| 


Download PyCharm 


Windows macos Linux 


Professional Community 


Full-featured IDE Lightweight IDE 
for Python & Web for Python & Scientific 
development development 


图 1.6 PyCharm 社区 版 下 载 
(2) 下 载 安 装 包 之 后 ， 双 击 进行 安装 ， 选 择 安装 路 径 ， 关 联 .py 文件 ， 单 击 Next 按钮 安装 ， 
如 图 1.7 所 示 。 


EJ PyCharm Community Edition Setup 


Installation Options 
Configure your PyCharm Community Edition installation 


Create Desktop Shortcut 
[]32-bitlauncher — [7]64-bit launcher 


C] Download and install JRE x86 by JetBrains 


图 1.7 PyCham 安装 选项 
(3) 一 直 单 击 Next 按钮 ， 即 可 安装 完成 ， 做 一 些 个 性 化 的 设置 后 即 可 开始 创建 项 目 ， 如 图 
1.8 所 示 。 


Welcome to PyCharm 


图 1.8 PyCharm 创建 项 目 
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13 ”安装 开发 工具 Visual Studio 社区 版 


另 一 个 编者 使 用 起 来 也 很 方便 的 编辑 器 是 Visual Studio 社区 版 ， 同 样 免费 ， 下 载 地 址 为 
https://visualstudio.microsoft.com/zh-hans/, 选择 Community 2017 进行 下 载 。 双 击 下 载 文件 进行 安装 ， 
由 于 是 通过 网 络 安装 ， 因 此 需要 下 载 一 些 安装 文件 。 在 安装 时 选择 “Python 开发 ” 复 选 框 ， 之 后 
开始 安装 直至 完成 ， 如 图 1.9 所 示 。 


正在 去 装 一 visual studio Community 2017 一 15.8.6 
工作 负载 单个 组 性 语言 SUEDE 


windows (3) zz Mei AH s. 
. . 让 Age n 
E NET mie E t, XH C++ 的 点 面 开发 > Visual Studio EA LARAS 


使 用 Cs, Visual Basic AQ F# ERE WPF, Windows SEAIS ER Microsoft C^ THE. ATLE, MFC AER Windows $ v vm 开发 


v Python 语言 支持 


可 先 

ml za Windows FARR Cookiecutter 383 zz $$ 
UNE duces V6、jovaScript 或 可 选 的 C-+ 为 通用 Windows Python Web 支持 

3ERIBIIB T RES ER 。 Python 3 64 位 (3.6.6) 
python IoT 支持 
Python 本 机 开发 工具 
Arure ZRS HUIA 
Python 2 64-bit (2.7.14) 
ASP.NET 和 Web 开发 Azure 开发 Anaconda3 64 位 (5.2.0) 
HA ASP.NET, ASP.NET Core、HTMUJavsScript 和 包括 RTTEZBEH.SESISU RERRHA Docker HAAS 
Docker Scit HESSE Hl. Web GARS? 2583 Azure SDK; TEHDA. 


HEERE e 面 应 用 程序 。 


web WZ (7) 


Anaconda2 32 位 (5.2.0) 


Python 开发 Node.js 开发 
对 Python 进行 编 缉 、 请 或、 交互 式 开发 和 源 做 码 管理 。 PA Nodejs Ah RE BHE JavaScript 运行 时 ) 生 
成 可 第 部 的 装 党 应 用 程 永 " 


位 置 
CAProgram Files (x86)\Microsoft visual studio\2017\Community = Pk.. 
BE mi 185668 


AEREE RETINA ART Visual Studio oe UErmr e 我 | 允许 使 用 Vsual Studio TENRA o VeRHEESERCTSIETRTT- iq 5 eet EMANEN 
X IEGBRECTHSIRESEERTRTE- TS f 


1.9 Visual Studio 社区 版 安装 选项 


爬虫 基础 知识 


从 本 章 开 始 ， 正 式 进 入 Python 爬虫 的 开发 讲解 。 本 章 分 为 两 部 分 : 第 一 部 分 是 网 络 爬 虫 (本 
书 也 称 爬 虫 ) 原理 的 概述 ， 帮 助 读 者 了 解 网 络 爬 虫 ; 第 二 部 分 介绍 网 络 爬 虫 开发 中 常用 的 一 些 分 析 
方法 及 工具 ， 分 析 方 法 包括 网 页 内 容 及 网 络 请 求 两 方面 ， 和 常用 工具 则 包含 Python 基本 的 HTTP 类 
库 及 本 书 主要 介绍 的 Scrapy JE m eg. 

本 章 的 主要 知识 点 有 : 

e 人 爬虫 的 基本 原理 

e Ikik MIER 

e HTML 页 面 分 析 

e e$ Hr 


2.1 RERE 


网 络 爬 虫 在 本 质 上 就 是 模拟 用 户 在 浏览 器 上 操作 ， 发 送 请 求 ， 接 收 啊 应 ， 然 后 分 析 并 保存 数 
据 ， 只 不 过 这 个 过 程 通 过 代码 实现 了 大 量 的 目 动 化 操作 。 


2.1.1 EREITEA RIE 


一 般 来 说 ， 一 个 朴 虫 的 执行 过 程 如 图 2.1 所 示 。 
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l 


l Data 


图 2.1 J(Em3k AE 


(1) 给 定 URL, Riž HTTP 请 求 ， 即 Request〈 请 求 ) 。 

(2) 服务 器 啊 应 请 求 ， 得 到 一 个 Response CHA) 。 

(3) 分 析 返 回 数据 ， 根 据 指定 规则 提取 数据 ， 产 生 Data 与 URL 两 部 分 数据 。 
(4) 将 Data 保存 到 数据 库 、 文 件 等 ，URL 保存 到 待 爬 取 列 表 中 ， 继 续 爬 取 。 
(5) 重复 步骤 (1) ~ (D 。 


由 此 可 以 看 出 ， 一 个 仆 虫 系统 中 应 包含 以 下 部 分 。 


(D URL 管理 器 : Mie ERGEIERUIISI URL. 

(2) 数据 下 载 器 : 根据 URL 下 载 数据 。 

(3) 数据 分 析 器 : 分 析 筛 选 下 载 的 数据 。 

(4) 数据 保存 器 : 将 筛选 出 的 数据 保存 到 文件 或 数据 库 。 

C5) 调度 器 : 负责 整个 系统 的 调度 。 

在 发 送 的 Request 中 应 包含 : 

e KURL, RPA R h, 

@ 请 求 方式 ， 热 虫 一 般 用 到 POST、GET 两 种 方式 。 

e 请 求 头 ， 一 个 请 求 的 头 部 信息 ， 包 含 User-Agent、Cookie 等 信息 。 

o 请求 体 ， 请 求 时 提交 的 数据 ， 如 登录 时 的 用 户 名 、 密 码 。 

相对 应 的 ，Response 中 则 包含 所 有 的 啊 应 信息 : 

e ”响应 状态 ，2** 代 表 成 功 ，3** 代 表 重 定向 ，4** 客 户 端 错误 ，5** 服 务 器 错误 ， 等 等 。 

e ”响应 头 ， 和 包含 Cookie、 类 型 等 。 

e 响应 体 ， 最 主要 的 部 分 ， 爬 取 的 数据 从 中 提取 ， 一 般 类 型 有 网 页 、 图 片 、 文 件 等 。 

对 数据 进行 保存 时 ， 可 以 保存 到 本 地 文件 ， 如 CSV、Excel、JSON 等 ， 更 好 的 方式 是 存储 到 
数据 库 ， 如 MySQL. MongoDB 等 。 


8 | Scrapy WEEER 


2.1.2 HTTP 请 求 过 程 


一 次 HTTP 请 求 可 以 简单 理解 为 请 求 - 啊 应 过 程 ， 客 户 端 问 服务 器 发 送 请 求 ， 服 务 器 问 客 户 端 
返回 啊 应 。 过 程 如 下 。 


(OD 连接 : 当 我 们 输入 URL 访问 时 ， 首 先 要 建立 一 个 socket 连接 ， 因 为 socket 是 通过 IP 和 
端口 建立 的 ， 所 以 之 前 还 有 一 个 DNS 解析 过 程 ， 把 URL AER IP. 4; URL. 里 不 包含 端口 号 ， 则 使 
用 默认 端口 号 。 

(2) 请 求 : 连接 成 功 建立 后 ， 开 始 向 Web 服务 器 发 送 请 求 ， 请 求 常 用 的 是 GET 或 POST 
命令 。 

(3) 响应 : Web 服务 器 收 到 请 求 后 ， 进 行 处 理 。Web 服务 器 根据 请 求 信 息 查 找 文件 ， 如 果 找 
到 该 文件 ， 就 把 该 文件 内 容 传送 给 相应 的 Web 浏览 器 。 

(4) 断 开 连接 : 当 响 应 结束 后 ，Web 浏览 器 显示 响应 的 信息 ， 同 时 与 Web 服务 器 断 开 连接 。 


了 解 整 个 请 求 过 程 之 后 ， 再 来 看 一 下 请 求 与 啊 应 的 内 容 。 
1. 请 求 内 容 
一 个 完整 的 HITP 数据 请 求 包 括 请 求 行 、 请 求 头 、 请 求 数据 ， 如 图 2.2 所 示 。 


头 部 字段 名 A (i 
一 


WORT 


请 求 jJ. p 
ILS NEC 
换行 符 
清 求 数据 


22 HTTP 请 求 数 据 


以 如 下 示例 进行 说 明 : 

01 GET /sample.jsp HTTP/1.1 

02 Accept:image/gif.image/jpeg,*/* 

03 Accept-Language:zh-cn 

04 Connection:Keep-Alive 

05 Host:localhost 

06 User-Agent:Mozila/4.0(compatible;MSIE5.01;Window NT5.0) 
07 Accept-Encoding:gzip,deflate 

08 


09 username-jinqiao&password-1234 


上 面 的 代码 中 ， 第 01 为 请 求 行 ， 请 求 方法 为 GET. URL 为 /sample.jsp，HTTP/1.1 表明 使 用 
HTTP1.1 协议 标准 。 

第 02-07 行为 请 求 头 部 ， 做 部 分 说 明 : Accept 为 请 求 报头 域 ， 用 户 指 定 客户 端 接收 哪些 类 型 
的 信息 ，image/gif 表明 接收 GIF 类 型 的 图 像 信 息 。Host 头 域 用 于 指定 请 求 服务 器 主机 和 端口 号 。 
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第 09 行 是 请 求 正 文 ， 请 求 头 和 请 求 正 文 之 间 是 一 个 空 行 〈 第 08 行 ) ， 这 个 行 非常 重要 ， 它 
表示 请 求 头 已 经 结束 。 请 求 正 文中 包含 客户 端 提交 的 查询 字符 串 信 息 等 。 
2. 响应 内 容 


啊 应 包含 状态 行 、 消 息 报 头 与 啊 应 正文 ， 代 码 如 下 : 


01 HTTP/1.1 200 OK 

02 Date: Mon, 27 Jul 2018 12:28:53 GMT 

03 Server: Apache 

04 Last-Modified: Wed, 22 Jul 2018 19:15:56 GMT 
05 Accept-Ranges: bytes 

06 Content-Type: text/plain 

07 Cookie: toweibologin-login; 

08 


09 ['"'username"'': ''Li'"', password": ''123456''] 


上 面 的 代码 中 ， 第 01 行 是 状态 行 ， 包 含 请 求 协议 、 响 应 码 、 响 应 状态 。 

第 02~07 行 是 响应 报 文 头 ,同样 由 多 个 属性 组 成 , 对 候 虫 而 言 最 常用 的 就 是 Cookie, 使 用 Cookie 
可 以 直接 登录 网 站 ， 避 免 网 站 的 登录 验证 。 

第 09 行 是 服务 器 返回 的 内 容 ， 形 式 有 HTML, JSON 等 格式 。 


2.2 网 页 分 析 方法 1: 浏览 器 开发 人 员工 具 


爬虫 作业 中 ， 最 重要 的 一 步 就 是 提取 数据 。 我 们 可 以 根据 HTML 结构 来 分 析 页 面 元 素 进 行 提 
取 ， 也 可 以 根据 正则 表达 式 提取 对 应 的 数据 。 分 析 HTML 结构 就 需要 用 到 浏览 器 开发 人 员工 具 。 
浏览 器 开发 人 员工 具 可 以 详细 地 查看 网 页 布局 、 请 求 、 啊 应 数据 ， 是 爬虫 应 用 中 非常 实用 的 
工具 ， 也 是 常用 的 工具 。 下 面 以 Chrome 浏览 器 中 的 开发 人 员工 具 进 行 讲解 ， 其 他 浏览 器 类 似 。 
打开 一 个 网 页 ， 按 F12 快捷 键 ， 打 开 Developer Tool， 如 图 2.3 所 示 。 


uM O 
EN 


e. > 
ments Console Sources Network Performance ] polication Secunty Audits AdBlock 0144 : 
, Styles Computed Event Listeners DOM Breakpoints Properties» 


xnlns-*"http://www.u3.0rg/1999/ xhtml Filter :hov .cls +, 3 


«v <body class="zhs zh-CN wkit "il dasts-príoríty- 2" onlosd-" ge('sb form q').focus(); 
"t Ww. — onfocus; zz 
id-"ajaxStyles" data - '4$"»..c/div 
ript type*"text/javascript"».«/scr 
d pi id-"hp table" role="none™>..</ta 
p<script type= bi „tiser. 
— type-'text/javascript' src ^ rax AE ELE fscrip ing: » 6; 
cript type= — -us bac ckaroun na- color: MNs33:; 
> aiy id-"aRmsDeter" »,.c /div border 
ript type-"text/javasc vip //«Y[CDATA[ 
Date; 


a, e 


ina 
lier none; 


{ 

-fan c “Segoe UI",Segoe,Tahoma,Arial,Verdana,sans-serif; 
sna11; 

ge 


nt- 
" jog" style- nt- 
display:none" onload-*'"sc 3:05 data 3a xt- 
script type aerea ascript»// ett 


html  body.zhs.zh-CN.wkit.Itr body { 
i Console What's New X 
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Scrapy 网 络 爬 虫 实战 


可 以 看 到 主页 面 分 为 上 面 的 工具 栏 与 下 面 的 信息 展示 栏 两 部 分 。 工 具 栏 有 8 个 主要 的 工具 可 
以 查看 开发 工具 : 


Elements: 解析 显示 页 面 的 组 成 元 素 , 也 就 是 当前 看 到 Chrome 泻 染 页 面 所 需要 的 HIML、CSS 
和 DOM (Document Object Model) 对 象 。 此 外 ， 还 可 以 编辑 这 些 内 容 以 更 改 页 面 显示 结果 . 
Console: 显示 各 种 警告 与 错误 信息 ， 并 且 提 供 了 Shell 用 来 与 文档 、 开 发 者 工具 交互 。 
Network: 显示 当前 页 面向 服务 器 请 求 了 的 资源 、 资 源 的 大 小 、 加 载 资源 花费 的 时 间 以 及 资源 
加 载 是 否 成 功 。 此 外 ， 还 可 以 查看 HITP 的 请 求 头 、 请 求 参 数 、 响 应 内 容 等 。 

Sources: 可 以 在 源 代码 面板 中 设置 断 点 来 调试 JavaScript， 或 者 通过 Workspaces (工作 区 ) 
连接 本 地 文件 来 使 用 开发 者 工具 进行 实时 编辑 。 

Memory: 如 果 需 要 比 Performance 提供 更 多 的 信息 ， 可 以 使 用 Memory 面板 ， 例 如 跟踪 内 存 
Performance: 可 以 通过 记录 和 查看 网 站 生命 周期 内 发 生 的 各 种 事件 来 提高 页 面 的 运行 时 性 能 。 
Application: 检查 加 载 的 所 有 资源 ， 包 括 IndexedDB 与 Web SQL 数据 库 、 本 地 和 会 话 存储 、 
Cookie、 应 用 程序 缓存 、 图 像 、 字 体 和 样式 表 。 

Audits; 分 析 页 面 加 载 的 过 程 ， 进 而 提供 减少 页 面 加 载 时 间 、 提 升 响 应 速度 的 方案 。 
Security: 安全 面板 可 以 调试 混合 内 容 问 题 、 证 书 问题 等 。 


在 爬虫 开发 中 ， 主 要 用 到 的 工具 有 Elements 与 Network。 前 者 用 于 查看 所 需 抓 取 的 元 素 ， 后 
者 用 于 查看 HTTP 请 求 的 相关 参数 与 方法 。 


A] 


Elements 面板 


选择 Elements 面板 ， 单 击 工具 栏 最 左 侧 的 鼠标 按钮 后 ， 单 击 页 面 任意 元 素 ， 在 详情 区 域 会 被 


[«]& 


€«1-* 
«t-- 


END $top-nav --> 
BEGIN fwrapper --» 


高 亮 显 示 ， 再 次 单 击 可 退出 该 模式 ， 如 图 2.4 所 示 。 


iugo Wt» NT 


L-—— | D AC 1.1 o -—— 


Elements Console Sources Performance Network Memory Application Security Audits 


i Styles Computed Event listeners DOM Breakpoints Properties » 


Yrdiv id="wrapper” class-"container Filter :hov .cls Lv : 


€«1-- BEGIN header --» 
v «header 


element.style { 


} 


v«div classs"header-wrapper": 


«1-- BEGIN &logo --> $410go.leaderboard-true img { 


v«div id-"logo" class-"leaderboard-true" 


‘a isi /LS 


- OE. 0525237 ol 
(img src-"http://blog.jobbole.com/wp-content/themes/jobboleblogv3/ assets/ 
img/jobbole-iogo.png" alt=" xÑ - 伯乐 在 线 "y == $e 
a 


: Fitransparent; 
font-size: 6; 


/div vertical-align: middle; | 
!-- END #logo --》 本 
!-- BEGIN &leaderboard =--> 

div id-"leaderboard' 


/div 


«1l-- END sleaderboard -=--> 


htm! body  divf&wrappercontainer header div.header-wrapper  divslogo leaderboard-true a img 


图 2.4 Elements 面板 
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通过 此 功能 可 以 快速 实现 元 素 的 定位 ， 对 调试 代码 非常 有 用 。 

在 HTML 页 面 中 ， 每 个 元 素 (如 <div>、<a>) 都 是 一 个 DOM 节点 ， 所 有 的 DOM 节点 组 成 
了 DOM 树 。 因 此 可 以 把 详情 区 域 当 作 DOM 树 ， 把 HTML 元 素 标 签 看 作 DOM 节点 。 同 样 ， 在 单 
击 选 择 DOM 节点 时 ， 网 页 中 对 应 的 元 素 也 会 被 高 亮 显 示 ， 如 图 2.5 所 示 。 
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[x à] Elements Console Sources Performance Network Memory Application Security Audits 
veUiV TIISS— BTiS XU= archive - 
«1-- BEGIN .post --» Styles Computed Event Listeners DOM Breakpoints Properties » 
cdi =" = nyal > pe 
div class-"post floated-thumb">..</div Filter acu 
«!-- END .post --> F 
B element.style ( 
> «div class-"post flogted-thumb"»..«/ iv> } 


#archive .floated-thumb { style.css?vers»1.0.67:1093 


«1-- BEGIN .post =--> border-bottom:» 1px dotted weseses; 
«div class-"post floated-thumb"»5..«/div» margin-bottom: 10px; 


《!-- END .post --》 } 
<l-- BEGIN .post -=--> 
> <div class-"post floated-thumb">.</div> 
<!-- END .post =--> 
<l-- BEGIN .post -=--> } 
«div class-"post floated-thumb"»... 
€«!-- END .post =--> 
€«l-- BEGIN .post =--> } 
«div class-"post floated-thumb"»... 
* END .post --» 
-- BEGIN .post --》 


.floated-thumb ( style.css?vers1.0.67:1255 
padding-bottom: 8; 


.post ( sty 
rr 


a, abbr, acronym, address, applet, article, style.css?verz1.0.67:121 
aside, audio, b, big, blockquote, body, 
. canvas, caption, center, cite, code, dd, del, details, 


html  bodyblog.chrome | divwrapper.container  div&archive grid-8  div.post floated-thumb 


图 2.5 元素 定位 


找到 需要 抓 取 的 元 素 ， 在 代码 中 一 般 使 用 CSS 与 XPath 两 种 方式 来 实现 定位 。Elements 面板 
中 可 以 直接 右 击 复制 相应 的 定位 方法 ，Copy selector 为 CSS 路 径 ，Copy XPath 为 XPath 路 径 ， 如 
2.6 所 示 。 


[x d Elements Console Sources Performance Network Me 


—UT——DUUUITM .posc- enunmu 7 
><div class-"post-thumb'»..«/div» 

«!-- END .post-thumb --> 

<!-- BEGIN .post-meta --» 
v<div class="post-meta"> 

v<p> Add attribute 


«a class="archiv Edit as HTML 
114420 /" title=" Delete element 


«br» Copy Cut element 


" Copy element 


Hide element l 
Pacte element 
Force state 
«a href-"http:// Break on Copy outerHTML 
< C lect 
/a» Expand recursively a w "d 
t 
</ p> Collapse children — 
b «span class-"excer &csollinto view 
p<p class-"align-ri Focus 


«/div» 
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2.2.2 Network 面板 


在 打开 一 个 网 页 时 ， 会 发 起 相应 的 HITP 请 求 ， 而 Network 面板 能 够 监听 记录 所 有 的 网 络 访 


12 | Scrapy Mi£&IErB sc ix; 


问 请 求 与 啊 应 信息 ， 这 一 点 在 分 析 异 步 加 载 请 求 时 非常 有 用 。 例 如 访问 伯乐 在 线 左右 文章 页 面 ， 如 
2.7 所 示 。 


[x à] Elements Console Sources Performance Network Memory Application Security Audits 


eo mF a View: s= "x LJ Group by frame | O Preserve log LJ Disablecache L Offline Online 


Filter © Hide data URLs ff) | xHR JS CSS Img Media Font Doc WS Manifest Other 


1000 ms 1500 ms 2000 ms 2500 ms 3000 ms 3500 ms 


Name Status Type Initiator Waterfall 


[ | all-posts/ 200 document Other 260; ME 
|. | dashicons.min.css?ver-4.5.15 200 stylesheet (index) 112 ms 
thickbox.css?ver-4.5.15 200 stylesheet (index), 88 ms 
|_| jquery.fancybox.css?ver=2.1.5 200 stylesheet (index), 92 ms 
jobbole-wp-plugin.css?ver- 1.0.30 200 stylesheet (index) 95 ms 
|_| crayon style.css?ver- 2.7.1.1 200 stylesheet (index) 97 ms 
|_| github.css?ver-2 7.1.1 200 stylesheet (index) 134 ms 
global style.css?verz2.7.1.1 200 stylesheet (index) 125 ms 
|_| colorbox.css?ver=2.7.1.1 200 stylesheet findex) 
|. | monaco.css?ver-2 7.1.1 200 stylesheet (index) 
| images.css?ver- 1.2 v48fv 200 stylesheet (index), 


L ^ amo ant nan 


84 requests | 44 MB transferred | Finish: 446 s | DOMContentLoaded: 359 s | Load: 4.47 s 


图 2.7 Network 面板 
选中 某 一 条 请 求 ， 以 all-posts/ 为 例 ， 查 看 请 求 详 细 人 信息， 如 图 2.8 所 示 。 
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| | all-posts/ 二 v General 
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mi Se08e0b08f1c54458be8116208d9b31c.jpg v Request Headers view source 


Referrer Policy: no-referrer-when-doungrade 


Keep-Alive: timeout=2 

Link: «http: //blog.jobbole.com/up-json/»; nrel-"https://api.w.onrg/" 
Server: nginx 

Transfer-Encoding: chunked 

Vary: Accept-Encoding 

X-Powered-By: PHP/5.3.3 


Lj jquery.fancybox.pack js?verz 2.1.5 Accept: text/html,application/xhtml«xml,application/xml;q-8.9,image/webp,image/apng,"/ 
-. | jaueryjs?ver- 1.12.4 *;q-0.8 
menu-effects.js?ver- 1.5.1 Accept-Encoding: gzip, deflate 
jquery-migrate.min js?verz 1.4.1 Accept-Language: zh-CH, zh;3-0.9,ja-7P;3-0.8,ja;3-0.7, en-U5;4-0.6,en;q-0.5,1a5;3-0.4 
L superfishjs?verz 1.4.8 Connection: keep-alive 
- | jobbole-wp-plugin js?ver- 1.0.62 DNT: 1 
Jquery.colorbox-min js?ver- 2.7.1.1 
utiljs?ver - 2.7.1.1 


Host: blog.jobbole.com 


Upgrade-Insecure-Requests: 1 
Lj crayon tag editor js?verz2 7.1.1 


User-Agent: Mozilla/5.8 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Ge 
ko) Chrome/69.0.3497.100 5afari/537.36 = 


84 requests | 4.4 MB transferred | Finish: 4.46 s | DOMContentLoaded: 3.59 s | Load: 4.47 s 


图 2.8 请 求 数据 信息 
详细 信息 中 有 Headers. Preview. Response. Timing 四 个 标签 页 。 
(1) 在 Headers 标签 中 ， 主 要 分 为 以 下 3 部 分 。 
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e General: HTTP 请 求 的 基本 信息 ， 包 括 请 求 地 址 、 请 求 方法 、 响 应 状态 码 、 远 程 卫 、 资 源 访 
问 策略 。 

e Response Headers: 服务 器 返回 的 头 部 信息 ， 包 括 连接 状态 、 内 容 返 回 类 型 、 时 间 等 信息 。 

e Request Headers: 发 起 请 求 的 头 部 信息 ， 包 括 接受 类 型 、 接 受 语 言 、 连 接 状态 等 ， 需 要 关注 
的 是 User-Agent, 某 些 网 站 对 爬虫 类 User-Agent 会 有 限制 ,比如 Scrapy 框 架 默认 的 User-Agent， 
因此 需要 对 该 值 进行 手动 修改 。 


(2) Preview 标签 页 对 返回 的 信息 进行 格式 化 预览 ， 如 图 2.9 所 示 。 
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requests | 18.3 KB transferred | Finish 294 s | DOMCOontentLoaded: 2.69 s I Load: 2.705 


29 Preview 预览 返回 信息 


(3) Response 标签 页 则 显示 相应 的 信息 ， 如 图 2.10 所 示 。 
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requests | 18.3 KB transferred | Finish: 2:84 s | DOMCaontentLosaded: 2.69 s | Load: 2.70 s 


[d] 2.10 Response 响应 数据 
(4) Timing 标签 页 显示 每 一 步 动 作 所 耗费 的 时 间 ， 如 图 2.11 所 示 。 
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211 Timing 标签 页 


2.3 网 页 分 析 方 法 2: XPath i87 


XPath 7j XML 路 径 语言 (XML Path Language) ， 是 一 种 用 来 确定 XML 文档 中 某 部 分 位 置 的 
语言 。XPath 基于 XML 的 树 状 结构 提供 在 数据 结构 树 中 找寻 节点 的 能 力 。 虽 然 XPath 被 设计 用 来 
查找 定位 XML 文档 ， 不 过 在 HTML 文档 中 也 能 很 好 地 工作 ， 而 且 主 流 浏览 器 大 多 支持 通过 此 功 
能 来 查找 节点 元 素 。 因 此 ， 在 爬虫 开发 中 ， 必 备 技能 便 是 通过 XPath 提取 网 页 信息 。 

XPath 以 节点 来 解析 文档 ,然后 通过 路 径 表 达 式 定位 元 素 ， 骨 经 过 XPath 轴 和 运算 符 的 进一步 
第 选 ， 达 到 提取 规定 数据 的 目的 。 


2.3.1 XPath 节点 


在 XPath 中 ， 有 7 种 类 型 的 节点 : 元 素 、 属 性 、 文 本 、 命 名 空间 、 处 理 指令 、 注 释 以 及 文档 
GR) 节点 。XML 文档 是 被 作为 节点 树 来 看 符 的 。 树 的 根 被 称 为 文档 节点 或 者 根 节点 。 

有 如 下 XML 文档 : 

01 «?xml version-"1.0" encoding-"I15S0-8859-]"?» 


02 «school» 
03 «student» 


04 «name lang-"en"»Make-c/name» 
05 «age»17«/age» 

06 «gender»Mc/gender» 

07 «score»90«/score» 


08 «/student» 
09 «/school» 


上 面 的 XML 文档 中 包括 的 节点 如 下 : 
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e <school> 文 档 节 点 

e <name> 元 素 节点 

e lang="en" 属 性 节点 

节点 组 合 在 一 起 便 会 产生 相对 应 的 节点 关系 , 包括 父 (Parent)、 子 (Childen)、 同 胞 (Sibling) ~ 
WHE (Ancestor) 、 后 代 (Descendant) 。 

e student 是 name, age. gender 的 父 ，school 有 student 的 父 。 

e name, age. gender 有 student 的 子 ，student 是 school 的 子 。 

e name. age. gender 都 是 同胞 。 

e school. student 是 name. age. gender A, EHI, AERP RAJA, LRF. 

e school 的 后 代 是 name、age、gender、student， 也 就 是 节点 的 子 、 子 的 子 等 。 


2.3.2 XPath 语法 


XPath 使 用 路 径 表 达 式 来 选取 XML 文档 中 的 节点 或 节点 集 。 节 点 是 通过 沿 着 路 径 (Path) 或 
者 步 CSteps) 来 选取 的 。 通 过 下 面 的 演示 文档 来 看 看 如 何 选取 节点 : 


01 <?xml version-"1.0" encoding-"ISO-8859-1"?» 


02 

03 «school» 

04 

05 «student» 

06 «name lang-"eng"»Leicac/name» 
07 «score»97«/score» 

08 «/student» 

09 

10 «student» 

TT «name lang-"eng"»Makec/name» 
i ie «score»89«/score» 

13 «/student» 

14 


15 «/school» 
常用 的 节点 选取 路 径 表 达 式 如 表 2-1 所 示 。 
表 2-1 XPath 路 径 表 达 式 


表达 式 描述 

nodename 选取 此 节点 的 所 有 子 节点 

/ 从 根 节点 选取 

// 从 匹配 选择 的 当前 节点 选择 文档 中 的 节点 ， 而 不 考虑 它们 的 位 置 
选取 当前 节点 
选取 当前 节点 的 父 节 点 


@ 选取 属性 


16 | Scrapy Nf&Ie re sc 


通过 使 用 上 面 的 路 径 表 达 式 ， 我 们 对 示例 文档 中 的 内 容 进行 选取 ， 如 表 2-2 所 示 。 


32-2 节点 选取 示例 


表达 式 描述 

school 选取 school 元 素 的 所 有 子 节点 

/School 选取 school 元 素 

/school/student 选取 school 的 子 元 素 的 所 有 student 元 素 

//student 选取 所 有 的 student 元 素 ， 而 不 考虑 它们 的 位 置 

school//student 选取 school 元 素 的 后 代 的 所 有 student 元 素 , 而 不 考虑 它们 位 于 school 之 下 的 什么 位 置 
@lang 选取 名 为 lang 的 所 有 属性 


R 2-2 中 的 表达 式 选 取 的 都 是 某 一 类 指定 的 节点 ， 如 果 要 选取 指定 的 茶 一 个 节点 ， 就 需要 用 谓 
语 ， 也 就 是 特殊 的 限定 条 件 ， 使 用 方法 如 表 2-3 所 示 。 


表达 式 

/school/student[ 1] 
/school/student[last()] 
/school/student[last()-1] 
/school/student[position() 3] 
/name[@lang] 
//name[(@lane='eng'] 
/school/student[score>90] 
/school/student[score>90]/name 


表 2-3 ”选取 指定 节点 


描述 

选取 属于 school 子 元 素 的 第 一 个 student 元 素 

选取 属于 school 子 元 素 的 最 后 一 个 student 元 素 

选取 属于 school 子 元 素 的 倒数 第 二 个 student 元 素 

选取 最 前 面 的 两 个 属于 school 元 素 的 子 元 素 的 student 元 素 

选取 所 有 拥有 名 为 lang 的 属性 的 name 元 素 

选取 所 有 name 元 素 ， 且 这 些 元 素 拥有 值 为 eng 的 lang 属性 

选取 school 元 素 的 所 有 student 元 素 ， 且 其 中 的 score 元 素 的 值 需 大 于 90 
选取 school 元 素 中 的 student 元 素 的 所 有 name 元 素 , 且 其 中 的 score 元 素 
的 值 需 大 于 90 


f£ XPath 中 ， 使 用 通配符 “*” 来 匹配 未 知 元 素 。 表 2-4 列 出 了 一 些 通 配 元 素 路 径 表 达 式 以 及 


匹配 结果 。 


表达 式 
/school/* 
/[* 
//mame[(q*] 


表 2-4 。“” 通 配 符 


描述 

选取 school 元 素 的 所 有 子 元 素 
选取 文档 中 的 所 有 元 素 
选取 所 有 带 有 属性 的 name 元 素 


如 果 匹 配 多 个 路 径 ， 则 可 以 使 用 “|” 运算 符 ， 使 用 方式 及 匹配 结果 如 表 2-5 所 示 。 


表达 式 
//student/name | //student/score 


//name | //score 


32-5 - 运算 符 


描述 
选取 student 元 素 的 所 有 name 和 score 元 素 
选取 文档 中 的 所 有 name 和 score 元 素 


表达 式 


/school/student/name | //score 


2.3.3 XPath 轴 
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( 续 表 ) 
描述 
选取 属于 school 元 素 的 student 元 素 的 所 有 name 元 素 ， 以 及 文档 中 所 有 
的 score 元 素 


轴 CAxis) 可 定义 相对 于 当前 节点 的 节点 集 。XPath 使 用 位 置 路 径 匹 配 节 点 位 置 ， 而 位 置 路 径 
类 型 包括 绝对 路 径 与 相对 路 径 。 绝 对 路 径 起 始 于 “/”， 相 对 路 径 没 有 限制 。 在 两 种 情况 中 ， 位 置 
路 径 均 包括 一 个 或 多 个 步 ， 每 个 步 均 被 和 斜 杠 分 割 : 绝对 路 径 /step/step/.， 相 对 路 径 step/step/…。 每 
个 步 均 根据 当前 节点 集中 的 节点 进行 计算 ， 轴 的 存在 可 使 节点 提取 变 得 更 加 灵活 准确 。 

XPath 轴 中 的 节点 集 如 表 2-6 所 示 。 


节点 

ancestor 
ancestor-or-self 
attribute 

child 

descendant 
descendant-or-self 
following 
namespace 
parent 

preceding 
preceding-sibling 
self 


步 包括 : 


表 2-6 XPath 轴 节点 


描述 

选取 当前 节点 的 所 有 先辈 〈 父 、 祖 父 等 ) 

选取 当前 节点 的 所 有 先辈 〈 父 、 祖 父 等 ) 以 及 当前 节点 本 身 
选取 当前 节点 的 所 有 属性 

选取 当前 节点 的 所 有 子 元 素 

选取 当前 节点 的 所 有 后 代 元 素 〈 子 、 孙 等 ) 

选取 当前 节点 的 所 有 后 代 元 素 〈 子 、 孙 等 ) 以 及 当前 节点 本 身 
选取 文档 中 当前 节点 的 结束 标签 之 后 的 所 有 节点 

选取 当前 节点 的 所 有 命名 空间 节点 

选取 当前 节点 的 父 节点 

选取 文档 中 当前 节点 的 开始 标签 之 前 的 所 有 节点 

选取 当前 节点 之 前 的 所 有 同 级 节点 

选取 当前 节点 


e 轴 (Axis)， 定 义 所 选 节 点 与 当前 节点 之 间 的 树 关系 。 
e 节点 测试 (Node-Test )， 识 别 某 个 轴 内 部 的 节点 。 
e 替 个 或 者 更 多 谓语 ( Predicate )， 更 深入 地 提炼 所 选 的 节点 集 。 


步 的 语法 为 : 轴 名 称 : :节点 测试 [谓语 ] 。 
使 用 的 测试 文档 如 下 ， 通 过 此 文档 进行 轴 的 示例 分 析 : 


01 <?xml version-"1.0" encoding-"ISO-8859-1"?» 


02 


03 «school» 


04 


05 «studentA» 


表 2-7” 步 的 使 用 示例 
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06 <name lang="eng">Leica</name> 
07 «score»97«/score» 
08 «/studentA» 
09 
10 «studentA» 
Tt «name lang-"eng"»Makec/name» 
12 «score»89«/score» 
13 «/studentA» 
14 
15 «studentB» 
16 «name lang-"eng"»Makec/name» 
Tf «score»88«/score» 
18 «/studentB» 
19 
20 «studentB» 
AL «name lang-"eng"»Makec/name» 
Vs «score»90«/score» 
23 </studentB> 
24 
258 /achool> 
通过 演示 文档 操作 示例 如 表 2-7 所 示 。 

示例 说 明 


//store/ancestor::* 


//name/ancestor::student 


//score/ancestor-or-self::* 
/school/studentA/name/attribute::* 
//namef/attribute::ang 
//studentA/child::* 
//score/child::text() 
//studentA/child::node() 
school/child::*/child::score 
/school/descendant::* 


/school/descendant-or-self::* 
/school/studentA[2 |/following::* 


/school/studentB[1 |/preceding::* 


/school/studentA [2 |/following-sibling::* 


选取 当前 score 节点 的 所 有 先辈 〈 父 、 祖 父 等 ) 

选择 当前 name 节点 的 所 有 student 先辈 

选取 当前 score 节点 的 所 有 先辈 〈 父 、 祖 父 等 ) 以 及 当前 节点 本 身 
选取 当前 name 节点 的 所 有 属性 

选取 当前 name 节点 的 lang 属性 

选取 当前 studentA 节点 的 所 有 子 元 素 

选取 当前 score 节点 的 所 有 文本 子 节点 

选取 当前 studentA 节点 的 所 有 子 节点 

选取 当前 school 节点 的 所 有 score 孙 节 点 

选取 当前 school 节点 的 所 有 后 代 元 素 〈 子 、 孙 等 ) 

选取 当前 school 节点 的 所 有 后 代 元 素 〈 子 、 孙 等 ) 以 及 当前 节点 本 身 
选取 文档 中 当前 第 二 个 studentA 节点 之 后 的 所 有 节点 ， 也 就 是 所 有 
studentB 节点 及 其 子 节点 

选取 文档 中 当前 第 一 个 studentB 节点 之 前 的 所 有 节点 ， 也 就 是 所 有 
studentA 节点 及 其 子 节点 

选取 当前 第 二 个 studentA 节点 之 前 的 所 有 同 级 节点 ， 也 就 是 所 有 的 
studentB 节点 
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( 续 表 ) 
示例 说 明 
/school/studentB[1]/preceding-sibling::* | 选取 当前 第 一 个 studentB 节点 之 前 的 所 有 同 级 节点 ， 也 就 是 所 有 的 
studentA 节点 
//studentA/self::* 选取 当前 studentA 节点 


2.34 XPath 运算 符 


XPath 表达 式 可 返回 节点 集 、 字 符 串 、 迪 辑 值 以 及 数字 。 表 2-8 列 出 了 可 用 在 XPath 表达 式 中 
使 用 的 运算 符 。 
表 2-8 ”XPath 运算 符 


ERE 示例 说 明 


TAR 


加 法 选取 子 元 素 score 等 于 90 的 studentA 元 素 
//studentA[score-100-10] 选取 子 元 素 score 等 于 90 的 studentA 元 素 
乘法 //studentA [score-9*10] 选取 子 元 素 score 等 于 90 的 studentA 元 素 
às AFIR wo T 90 (sua Ji 
: IREJEE score 等 于 90 f student Jc 


素 


e //studentA [score-«100] 选取 子 元 素 score 小 于 100 的 studentA 元 素 


元 素 


选取 子 元 素 score 大 于 80 的 studentA 元 素 


* T 


> 一 大 于 或 等 于 //studentA [score»—80] 选取 子 元 素 score 大 于 等 于 80 的 studentA 
元 素 

OT 或 //IstudentA[score<80 or Score>90] 选取 子 元 素 score 小 于 80 或 者 score 大 于 90 

and 与 //studentA[score»80 and score<90] | 选取 子 元 素 score 大 于 80 并 且 小 于 90 的 


mod 选取 子 元 素 score 等 于 90 的 studentA 元 素 
2.4 网 页 分 析 方 法 3: CSS 选择 语法 


CSS JH EE FEX (Cascading Style Sheets) ， 用 来 定义 如 何 显示 HTML 元 素 , 一 般 和 HTML 
文件 一 起 使 用 ， 通 过 对 HTML 标签 的 修饰 来 解决 内 容 与 表现 分 离 的 问题 。 
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CSS 规则 由 两 个 主要 的 部 分 构成 : 选择 器 以 及 一 条 或 多 条 声明 ， 有 具体 如 下 : 


selector (declarationl; declaration2; ... declarationN } 


选择 器 通常 是 需要 改变 样式 的 HIML 元 素 ， 需 要 指定 具体 的 标签 。 每 条 声明 由 一 个 属性 和 一 
个 值 组 成 。 属 性 (Property) 是 我 们 希望 设置 的 样式 属性 (Style Attribute) 。 每 个 属性 有 一 个 值 。 
属性 和 值 被 冒号 分 开 。 在 进行 候 虫 开发 时 ,主要 通过 选择 器 来 进行 相关 元 素 的 提取 ， 因 此 我 们 主要 
对 选择 器 的 相关 用 法 做 讲解 ， 其 他 的 内 容 如 有 兴趣 ， 读 者 可 自行 查看 相关 资料 。 

CSS 的 选择 器 主要 包括 元 素 选择 器 、 类 选择 器 、ID 选择 器 、 属 性 选择 器 、 后 代 选 择 器 、 子 元 
素 选择 器 、 相 邻 兄 种 选择 器 。 下 面 将 根据 如 下 文档 进行 具体 讲解 : 

01 «!DOCTYPE html» 

02 «html lang-"en" dir-"ltr"» 


03 «head» 
04 «meta charset-"utf-8"» 
05 <title> 考 试 说 明 </title> 
06 </head> 
07 <body> 


08 <h1> 考 试 说 明 </hl1> 
09 <p>2018 年 第 二 学 期 高 数 考试 说 明 </p> 


10 «div class-"info"» 

11 <p> 考 试 因 故 取消 </p> 

12 <a id="detail" href="/detail/info.html"> 
13 «img src-"/cancel.jpg" alt-""» 

14 查看 详情 

15 «/a» 

16 «/div» 

IN «p class="info"> 下 次 补考 时 间 :2019.1.3</p> 
18 «p target="freshman"> 一 年 级 </p> 

19 </body> 

20 «/html» 


24.1 TRIERS 


最 常见 的 CSS 选择 器 是 元 素 选 择 器 。 也 就 是 说 ， 文 档 中 的 元 素 就 是 基本 的 选择 器 ， 比 如 p. 
hl、div、a， 如 表 2-9 所 示 。 
表 2-9 CSS 元 素 选择 器 


a ms 
den ooo RB 
deme BIET 
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242 ”类 选择 器 


类 选择 器 允许 以 一 种 独立 于 文档 元 素 的 方式 来 指定 元 素 ， 该 选择 器 可 以 单独 使 用 ， 也 可 以 与 
其 他 元 素 结合 使 用 ， 如 表 2-10 Br. 


表 2-10 ”CSS 类 选择 器 


选择 器 示例 描述 
m moo [IIR dna 
demencia DUET IET: 


24.3 ID XiXz8 


ID 选择 器 与 类 选择 器 类 似 ， 不 同 的 是 ID 选择 器 以 “#” 开 始 ， 并 且 由 于 在 HTML 文档 中 ID 
值 是 唯一 的 ， 因 此 比 class 更 方便 使 用 ， 但 并 不 是 每 个 标签 都 有 ID， 使 用 方法 如 表 2-11 所 示 。 


表 2-11 CSS ID 选择 器 


选择 器 一 一 一 描述 
#id aeail 00000000000 选择 所 有 id="detail" 的 元 素 
demenfid ml — [E eia JR 


244 ”属性 选择 颖 


如 果 希 望 选择 有 某 个 属性 的 元 素 ， 则 可 以 使 用 属性 选择 器 ， 不 仅 限 于 class 和 id 属性 ， 如 表 
2-12 所 示 。 


表 2-12 ”CSS 属性 选择 器 


选择 器 描述 

[attribute] 选择 所 有 含有 target 属性 的 元 素 

[attribute-value] 选择 target 属性 等 于 "freshman" 的 元 素 

[attribute-—value] 选择 target 属性 包含 freshman 的 元 素 

[attribute^value] 选择 target 属性 以 fresh 开头 的 元 素 

element[attribute] 选择 所 有 含有 target 属性 的 a 元素 
24.5 ARZEK 


后 代 选 择 器 (Descendant Selector). 又 称 为 包含 选择 器 ， 可 以 选择 作为 某 元 素 后 代 的 元 素 ， 如 
表 2-13 所 示 。 
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表 2-13 ”CSS 后 代 选 择 器 


选择 器 示例 | 描 术 
element element 选择 div 元 素 下 的 所 有 Pp 元 素 


element.class element 选择 class 等 于 info 的 div 元 素 下 的 所 有 img 元 素 


24.6 ” 子 元 素 选 择 器 
如 果 不 希 望 选 择 任意 的 后 代 元 素 ， 而 是 希望 缩小 范围 ， 只 选择 某 个 元 素 的 子 元 素 ， 可 以 使 用 
子 元 素 选择 器 (Child Selector) ， 如 表 2-14 所 示 。 
表 2-14 CSS 子 元 素 选择 器 


选择 器 示例 描述 


element > element 选择 div 元 素 下 的 所 有 Pp 子 元 素 
2.4.7 相 邻 兄弟 选择 器 


如 果 需 要 选择 紧 接 在 男 一 个 元 素 后 的 元 素 ， 而 且 二 者 有 相同 的 父 元 素 ， 可 以 使 用 相 邻 兄弟 选 
择 器 (Adjacent Sibling Selector) ， 如 表 2-15 所 示 。 
表 2-15 CSS 相 邻 兄弟 选择 器 


选择 器 示例 描述 
element + element p+a 选择 紧 跟 在 p 元 素 后 面 的 所 有 兄弟 a 元素 


单独 使 用 某 一 种 选择 器 实现 选取 指定 元 素 的 情况 并 不 常见 ， 多 数 情 况 下 需要 组 合 使 用 ， 如 表 
2-16 所 示 。 
表 2-16 ”CSS 选择 器 组 合 使 用 
示例 描述 


html > body divinfo + p 选择 紧 接 在 class 等 于 info 的 div 元 素 后 出 现 的 所 有 兄弟 p 元 素 ， 该 div 元 素 包含 
在 一 个 body 元 素 中 ，body 元 素 本 身 是 html 元 素 的 子 元 素 


2.5 网 页 分 析 方 法 4: 正则 表达 式 


对 于 复杂 的 数据 结构 ， 或 者 无 法 使 用 XPath, CSS 进行 提取 的 数据 ， 使 用 正则 表达 式 是 一 个 很 
好 的 选择 。 正则 表达 式 就 是 使 用 一 些 特殊 规定 的 字符 组 成 包含 一 定 巡 辑 的 特殊 组 合 , 使 用 这 个 特殊 
组 合 对 字符 串 进行 过 滤 ， 找 到 满足 该 多 辑 的 数据 。 
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2.5.1 提取 指定 字符 


获取 数据 结合 ， 有 用 的 数据 只 有 一 部 分 ， 我们 可 以 指定 字符 串 进行 匹配 ， 如 表 2-17 所 示 。 
表 2-17 字符 匹配 
语法 表达 式 。 | 匹配 的 字符 


| ëo [aix 

| 可 以 匹配 除了 换行 符 “wn” 之 外 的 任意 字符 abc. aec. afc. a9c 
1 alc. abc. asc 

[9 «^ 在 中 括号 内 ， 表 示 取 反 ， 即 匹配 除了 中 括号 内 的 数据 abc, a4c 

\ 转 义 字符 ， 使 后 一 个 字符 改变 原来 的 意思 ， 如 “\” 中 的 adc, abc, a.c, alc 


“.” 代 表 本 身 ， 而 不 是 任意 字符 


252 预定 义 字 符 集 


数字 信息 应 该 是 爬虫 工作 中 最 频 楷 提取 的 数据 了 ， 如 日 期 、 交 易 量 、 订 单数 等 。 用 来 匹配 数 
字 的 字符 是 \d， 而 提取 文字 信息 一 般 用 \w， 这 种 叫 作 预 定义 字符 集 ， 常 用 的 预定 义 字 符 集 如 表 2-18 
所 示 。 


表 2-18 预定 义 字 符 集 


tm ET 
axi 

imc 

4 [meo sk fe 

o [mee Wurpa — ë [sx | 

s ix. 


2.5.3 数量 限定 


当 需 要 重复 匹配 时 ， 比 如 电话 号 码 11 个 数字 ， 匹配 11 次 \d, 为 了 避免 写 11 次 \d 或 者 更 多 次 ， 
就 需要 用 到 限定 符 ， 如 表 2-19 所 示 。 
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表 2-19 ”数量 限定 


EA DESTSR 
; ib. abs 
加 T 

四 uic. ama 


(m) 匹配 前 一 个 字符 0-m 次 bc、abc、aabc 
{m.n} 匹配 前 一 个 字符 m 至 n 次 abc、aabc、aaabc 
25.4 分支 匹配 


如 果 有 多 种 匹配 规则 ， 则 满足 任意 一 种 规则 即 可 完成 匹配 ， 这 时 就 要 用 到 分 支 条 件 的 匹配 。 
比如 日 期 格式 ，2018-10-10、2018/10/10 或 者 2018.10.10 都 满足 条 件 ， 从 左 往 右 ， 匹 配 到 任意 一 个 
即 可 ， 如 表 2-20 所 示 。 


表 2-20 条件 分 支 
语法 表达 式 RAS 


| 左右 两 个 表达 式 满 足 一 个 即 可 ， 先 左 后 | dí4)-d(2)-d(2) M (41d (22d (2) | 2018-12-12 
A, 一 旦 左边 匹配 成 功 ， 则 跳 过 右边 匹配 | M4) d) d) 


2.5.5 分 组 


表 2-20 中 的 正则 表达 式 不 仅 能 匹配 到 2018-12-12 这 样 的 日 期 , 也 能 匹配 到 2018-99-99 这 样 不 
存在 的 日 期 ， 需 要 对 月 份 日 期 做 具体 的 限定 ， 月 份 应 该 是 0[1-9]I1[0-2]， 日 应 该 是 
0[1-9]I[12][0-9]|3[01]， 完 整 表达 式 为 \d{4}-(0[1-9]|1[0-2])-(0[1-9]I[12][0-9]|3[01]))。 这 里 没有 判断 每 月 
是 否 有 31 日 ， 二 月 是 否 为 国 月 ， 更 详细 的 判断 请 读者 练习 完成 。 

每 个 “0” 为 一 个 分 组 ， 分 组 的 起 始 编号 为 1， 每 遇 到 一 个 “(” 编 号 加 1， 在 提取 数据 时 ， 可 
以 方便 地 将 一 组 数据 单独 提取 出 来 。 


2.5.6 FAMS 
先 介绍 什么 是 零 宽 断 言 ， 在 程序 设计 中 ， 断 言 指 的 是 判断 一 个 情况 是 否 为 真 ， 而 在 正则 表达 


式 中 ,去 宽 断 言 指 的 是 当 断 言 表达 式 为 真 的 时 候 ， 再 进行 匹配 ， 匹 配 的 时 候 并 不 匹配 断言 表达 式 的 
内 容 。 断 言 有 不 同 的 形式 ， 结 合 如 下 字符 串 更 好 理解 : 


Rita repeated what Reardon recited when 
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(D 先行 断言 ， 也 叫 作 零 宽 度 正 预测 先行 断言 ， 表 达 式 : (?=exp)， 当 断言 表达 式 为 真 时 ， 匹 
配 断 言 表达 式 前 面 的 位 置 。 先行 断言 的 执行 步骤 为 : 先 从 要 匹配 的 字符 串 中 的 最 右 端 找到 第 一 个 断 
AKAN, 再 匹配 其 前 面 的 表达 式 ; 大 无 法 匹配 ， 则 继续 查找 第 二 个 断言 表达 式 ， 再 匹配 第 二 个 断 
言 表 达 式 前 面 的 字符 串 ; 各 能 匹配 ， 则 匹配 。 例 如 \w+(?=ted)， 会 匹配 到 repea 和 reci (断言 表达 是 
“ted” 不 会 匹配 ) ， 而 .*(?=0 则 会 匹配 到 My WeChat account. 

(2) 后 发 断言 ， 也 叫 作 零 宽度 正 回顾 后 发 断言 ， 表 达 式 : (?<=exp)， 当 断言 表达 式 为 真 时 ， 
匹配 断言 表达 式 后 面 的 位 置 。 与 先行 断言 执行 顺序 相反 ， 先 从 要 匹配 的 字符 串 中 的 最 左 端 找到 第 1 
个 断言 表达 式 ， 再 匹配 其 后 面 的 表达 式 ; 大 无 法 匹配 ， 则 继续 查找 第 2 个 断言 表达 式 ， 再 匹配 第 2 
个 断言 表达 式 后 面 的 字符 串 ; 大 能 匹配 ， 则 匹配 。 例 如 (3?<=reNw+， 会 匹配 到 peated 和 cited, ifj 
(?<=re).* 则 会 匹配 到 peated what Reardon recited when. 

G) 去 宽 度 负 预 测 先行 断言 ， 表 达 式 (?!exp)， 当 断言 表达 式 不 成 立时 ， 匹 配 断 言 表 达 式 前 面 
的 位 置 ; 若 断 言 表达 式 成 立 ， 则 不 匹配 。 例 如 \b(?!RJNw+ 匹 配 不 以 大 写字 母 R 开头 的 字符 串 。 

(4) 零 宽度 负 回 顾 后 发 断言 ， 表 达 式 (?<!exp)， 当 断言 表达 式 不 成 立时 ，[ 匹 配 断 言 表 达 式 后 
面 的 位 置 ， 夺 断言 表达 式 成 立 ， 则 不 匹配 。 例 如 \Ww+(?<!ted)\b 匹配 不 以 ted 结尾 的 字符 串 。 


2.5.7 ARRASAR 


正则 表达 式 默 认 是 贪 禁 模 式 ， 也 就 是 尽 可 能 多 地 匹配 字符 串 ， 比 如 使 用 avw+b 匹配 a123b123b 
时 ， 得 到 的 是 a123b123b， 而 不 是 a123b。 想 匹配 到 al23b 的 时 候 ， 就 需要 启用 非 贪 禁 模 式 ， 将 表 
达 式 改 为 aw+?b 就 可 以 匹配 到 a123b。 数 量 限定 中 启用 非 贪 禁 模式 如 表 2-21 所 示 。 


表 2-21 数量 限定 与 非 贪 困 模式 


语法 含义 

" 匹配 前 一 个 字符 0 次 或 多 次 ， 尽 可 能 少 重 复 
42 匹配 前 一 个 字符 1 次 或 多 次 ， 尽 可 能 少 重复 
? 匹配 前 一 个 字符 0 次 或 1 次 ， 尽 可 能 少 重复 
(m? 匹配 前 一 个 字符 m 次 或 更 多 次 ， 尽 可 能 少 重复 
{m.n}? VLRGBU—^ Ef mn, eufüb5mEs 


2.5.8 Python 中 的 正则 表达 式 


在 其 他 编程 语言 中 ， 处 理 正则 表达 式 时 ， 反 和 斜 杠 “\” 时 常 带 来 想不到 的 造成 困扰 ， 反 和 斜 杠 既 
可 作为 普通 字符 ， 又 兼任 着 转 义 字符 的 功能 ， 假 如 你 需要 匹配 文本 中 的 字符 “\”， 那 么 使 用 编程 
语言 表示 的 正则 表达 式 需 要 使 用 4 个 反 斜 杠 “W\”: 前 两 个 和 后 两 个 分 别 用 于 在 编程 语言 中 转 义 
成 反 斜 枉 ， 转 换 成 两 个 反 斜 枉 后 ， 再 在 正则 表达 式 中 转 义 成 一 个 反 斜 枉 。 而 在 Python 中 ， 原 生字 
符 串 很 好 地 解决 了 这 个 问题 ， 简 单 地 使 用 PN" 即 可 。 同 样 ， 匹 配 一 个 数字 的 "Nd" 可 以 写成 rd"。 fi 
用 原生 字符 串 ， 无 须 担心 繁杂 的 转 义 问题 ， 写 出 来 的 表达 式 也 更 加 直观 。 

Python 中 使 用 re 模块 来 提供 对 正则 表达 式 的 支持 。 使 用 re 的 一 般 步 又 是 先 将 正则 表达 式 的 字 
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符 串 形式 编译 为 Pattern 实例 , 然后 使 用 Pattern 实例 处 理 文 本 并 获得 匹配 结果 (一 个 Match 实例 ) , 
最 后 使 用 Match 实例 获得 信息 ， 进 行 其 他 的 操作 。 下 面 对 主 要 用 到 的 方法 进行 示例 讲解 。 
( 1) re.compile(pattern,flags-0) 
将 字符 串 pattern 转化 为 Pattern 对 象 , 用 来 给 其 他 的 re 函数 提供 正则 表达 式 参 数 , 做 进一步 的 
搜索 ， 其 中 的 flags 是 匹配 模式 ， 可 选 的 有 : 


e rli 忽略 大 小 写 。 
e reM: 多 行 模式 ， 改 变 改 和 '$' 的 行为 。 
e reS: 点 任意 匹配 模式 ， 改 变 “.” 的 行为 。 
e rel: 使 预定 字符 类 \w\VW\b\B'\s\S 取决 于 当前 区 域 设 定 。 
reU: 使 预定 字符 类 \w \W BS WD RAF Unicode 定义 的 字符 属性 。 
re.V: 详细 模式 ， 这 个 模式 下 正则 表达 式 可 以 是 多 行 的 ， 忽 略 空白 字符 ， 并 可 以 加 入 注释 。 


【示例 2-1】 使 用 re.compileO 转 化 Pattern 对 象 : 


01 import re 
02 
03 + 将 正则 表达 式 编译 成 Pattern 对 象 


04 pattern = re.compile(r'Niw-*') 
( 2) re.match(pattern, string, flags-0) 


从 字符 串 string 起 始 位 置 开 始 匹配 pattem， 夺 匹配 到 ， 则 返回 一 个 Match 对 象 ， 若 未 匹配 到 ， 
则 返回 None. Match 对 象 有 很 多 方法 ， 最 常用 的 是 group， 示 例如 下 。 


【示例 2-2] re.match( Ei FER 


01 import re 

02 

03 + 将 正则 表达 式 转化 成 Pattern 对 象 

04 pattern = re.compile (r' (Xd(4])- (^d(8]) ') 

05 # 待 匹 配 字 符 串 

06 stringl = "0755-44445555 is our new office phone number" 
07 string2 - "the old number 0755-11112222 is no longer used" 
08 +E Match 对 象 

09 matchl = re.match(pattern,stringl) 

10 match2 = re.match(pattern,string2) 

11 

12 rr matchi: 

213 # re.match 结果 类 型 


14 print (type (matchl) ) 

15 # groups 返回 所 有 匹配 结果 

16 print (matchl.groups()) 

17 + group (0) 为 未 分 组 的 原始 匹配 对 象 
18 print (mateni group (0)) 


19 + group(1) 为 第 一 组 对 象 ， 以 此 类 推 
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20 print (matchl.group (1)) 

Z1 print (matchl.group (2)) 

22 else: 

23 print ('matchl 未 匹配 到 对 象 ' ) 

24 

J5 Cr matchn2: 

26 print (match2) 

27 # groups 返回 所 有 匹配 结果 

28 print (match2.groups () ) 

29 # group (0 ) 为 未 分 组 的 原始 匹配 对 象 
30 print (match2 .group (0) ) 

31 # group (1) 为 第 一 组 对 象 ， 以 此 类 推 
32 print (match2.group (1)) 

33 print (match2.group (2)) 

34 else: 

35 print ('match2 未 匹配 到 对 象 ' ) 
运行 结果 如 下 : 


re .match 返回 结果 类 型 为 : «class ' sre.SRE Match'> 
groups 的 内 容 为 : ('0755', '44445555") 
group (0) 的 内 容 为 : 0755-44445555 

group (1) 的 内 容 为 : 0755 

group (2) 的 内 容 为 : 44445555 

match2 未 匹配 到 对 象 


( 3 ) re.search(pattern, string, flags=0) 
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search 方法 与 match 方法 类 似 ， 不 同 的 是 ，match 必须 在 字符 串 起 始 位 置 开始 匹配 ， 而 search 


则 会 查找 整个 string 进行 匹配 。 夺 在 任意 位 置 匹 配 到 ， 则 返回 一 个 Match 对 象 ， 示 例如 下 。 


【示例 2-3 】re.searchO 全 文 查找 字符 串 


01 import re 

02 

03 + 将 正则 表达 式 转化 成 Pattern 对 象 

04 pattern = re.compile (r' (\d{4})-(\d{8})") 

05 # 待 匹 配 字符 串 

06 stringl = "0755-44445555 is our new office phone number" 
07 string2 = "the old number 0755-11112222 is no longer used" 
08 # 生 成 search 对 象 

09 searchl = re.search(pattern,stringl) 


10 search2 = re.search(pattern,string2) 


FAI 

12 if searchl: 

23 # re.search 结果 类 型 

14 print ('search1 返回 结果 类 型 为 : ' ,type (searchl) ) 


15 + groups 返回 所 有 匹配 结果 
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16 print('searchl 中 groups 的 内 容 为 : '，, searchl .groups ()) 
17 # group (0) 为 未 分 组 的 原始 匹配 对 象 

18 print ('searchl 中 group (0) 的 内 容 为 :'，, search]l .group (0) ) 
19 # group (1) 为 第 一 组 对 象 ， 以 此 类 推 

20 print('searchl 中 group (1) 的 内 容 为 :'，, searchl.group(1)) 
21 print('searchl 中 group (2) 的 内 容 为 :" , searchl.group (2) ) 
22 else: 

23 print ('searchl 未 匹配 到 对 象 ' ) 

24 

25 if search2: 

26 print ('search2 返回 结果 类 型 为 : ', type (searchl) ) 

2] # groups 返回 所 有 匹配 结果 

28 print ('re.search 返回 结果 类 型 为 :'，, search2 .groups () ) 

29 + group (0) 为 未 分 组 的 原始 匹配 对 象 

30 print('search2 中 groups 的 内 容 为 : '，, search2 .group (0) ) 
31 # group (1) 为 第 一 组 对 象 ， 以 此 类 推 

32 print('search?2 Ħ group (0) 的 内 容 为 :' ,search2 .group (0)) 
33 print ('search2 中 group (1) 的 内 容 为 :'，, search2 .group (1) ) 
34 print ('search2 中 group (2) 的 内 容 为 :'，, search2.group (2)) 
35 else: 

36 print ('search2 未 匹配 到 对 象 ') 
运行 结果 如 下 : 


searchl 返回 结果 类 型 为 : «class ' sre.SRE Match'> 
searchl 中 groups 的 内 容 为 : ('0755', '44445555') 
searchl 中 group (0) 的 内 容 为 : 0755-44445555 
searchl 中 group (1) 的 内 容 为 : 0755 

searchl 中 group (2) 的 内 容 为 : 44445555 

search2 返回 结果 类 型 为 : «class ' sre.SRE Match'» 
re.search 返回 结果 类 型 为 : ('0755', '11112222") 
search2 中 groups 的 内 容 为 : 0755-11112222 

search2 Ħł group (0) 的 内 容 为 : 0755-11112222 
search2 中 group (1) 的 内 容 为 : 0755 

search2 中 group (2) 的 内 容 为 : 11112222 


(4) re.findall(pattern, string, flags-0) 
搜索 整个 字符 串 ， 以 列表 形式 返回 所 有 [匹配 结果 ， 示 例如 下 。 


【示例 2-4 】re.findall0 查 找 所 有 匹配 对 象 


01 import re 

02 

03 + 将 正则 表达 式 转 化 成 Pattern 对 象 

04 pattern = re.compile('Md-*') 

05 # 待 匹 配 字符 串 

06 strings ~ Your activation code is 73829-72993-00983-84721' 
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07 result - re.findall (pattern, strings) 
08 
09 print(result) 


运行 结果 如 下 : 
[7382917 M7299317 7009837, .84721 
(5) re.split(pattern, string, maxsplit=0, flags=0) 
以 匹配 到 的 字符 串 分 割 string， 返 回 分 割 后 的 列表 ， 示 例如 下 。 


【示例 2-5】re.split0 分 割 查找 字符 串 


01 import re 


03 + 将 正则 表达 式 转化 成 Pattern 对 象 

04 pattern = re.compile('WMW') 

05 # 待 匹 配 字符 串 

06 strings = 'This$is&the@largest%ball' 


08 result - re.split (pattern, strings) 


10 print (result) 
运行 结果 如 下 : 
I rna un ethne Ee leargest esi 
( 6) re.sub(pattern, repl, string, count=0, flags=0) 
使 用 repl 蔡 换 匹配 到 的 字符 串 ,并 返回 蔡 换 后 的 字符 串 。repl 可 以 是 一 个 字符 串 或 者 一 个 方法 ， 


当 是 一 个 方法 时 ， 接 收 一 个 Match 参数 并 返回 一 个 字符 串 ， 使 用 此 字符 串 进 行 蔡 换 操作 ，count fH 
定 次 数 ， 默 认为 0 时 全 部 蔡 换 ， 示 例如 下 。 


【示例 2-6] 】re.sub0 蔡 换 匹 配对 象 


01 import re 

02 

03 + 将 正则 表达 式 转化 成 Pattern 对 象 

04 pattern = re.compile (r' (Xd(4])-Nd(2]-Nd(2]) ') 

05 strings — 'Today is 2018-12-12, the date of the meeting is set at 2019-09-10, 
please confirm 06 whether to participate before 2018-12-25' 

07 

08 + 定义 日 期 格式 转换 方法 ， 将 '- ' 用 ' . ' 代 蔡 

09 def totype (match): 


10 return match.group(0).replace(r'-','."') 
AT 

12 new strings - re.sub(pattern,totype,strings) 
13 


14 print(new strings) 
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运行 结果 如 下 : 


Today is 2018.12.12, the date of the meeting is set at 2019.09.10, please confirm 
whether to participate before 2018.12.25 


2.6 IE3*RFI3EEE 1: Python 中 的 HTTP 基本 库 urllib 


我 们 己 经 了 解 到 , 爬虫 简单 来 说 就 是 发 送 请 求 并 获取 信息 。 道 理 很 简单 ,但 怎么 发 送 请 求 呢 ? 
幸运 的 是 ， 使 用 Python 标准 库 和 第 三 方 库 都 能 实现 此 功能 。 接 下 来 我 们 将 介绍 这 些 标准 库 及 第 三 
方 库 。urllib 是 Python 内 置 的 标准 库 ， 无 须 安装 即 可 使 用 。 


2.6.1 发 送 请 ; 


基本 的 网 络 请 求 方法 为 urlopen， 方 法 原型 为 : 


urllib.request.urlopen(url, data=None, [timeout, ]*, cafile-None, 
capath-None, cadefault-False, context-None) 


参数 说 明 如 下 。 

e url: 访问 的 地 址 ， 也 可 以 是 一 个 Request。 

e data; 若 指定 data 值 ， 则 变 为 POST 请 求 (注意 : data 传递 的 参数 需要 转 为 bytes， 可 通过 
urllib.parse.urlencode 进行 转换 )。 
timeout: 设置 网 站 的 请 求 超 时 时 间 。 
cafile: 在 访问 HITPS 网 站 时 ， 可 使 用 此 参数 指定 单个 CA 证 书 文件 。 

e capath: 在 访问 HTTPS 网 站 时 ， 可 使 用 此 参数 指定 CA 证 书 文件 路 径 。 

e cadefault: 此 参数 已 废弃 。 

e context: 必须 指定 为 描述 SSL 选项 的 ssl.SSLContext 实例 。 


urlopenO 返 回 对 象 可 用 的 方法 如 下 。 

e read): 返回 响应 信息 。 

e geturl): 返回 响应 的 网 址 。 

€ getcode(): 返回 响应 码 。 

e info): 返回 页 面 元 信息 ， 比 如 头 部 信息 等 。 


打开 一 个 无 参数 请 求 ， 默 认为 GET 请 求 : 


»»» import urllib.request 
>>> nrl — 'http://bing.com' 
>>> r-urllib.request.urlopen (url) 


如 果 发 送 的 GET 请求 有 参数 ， 就 需要 用 到 urllib.parse 中 的 urlencode 将 请 求 参 数 进 行 URL 编 
码 ， 拼 接 之 后 再 进行 发 送 : 
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>>> import urllib.request 

>>> import urllib.parse 

>>> url - 'http://bing.com/search' 

>>> data-([('q':'python'] 

>>> req data = urllib.parse.urlencode (data) 

>>> req data 

'qe-python' 

>>> reg gri = urb L' 3" 4 req data 

2o TEQ uri 

'http: //bing.com/search?q-python' 

>>> r-urllib.request.urlopen (url) 

>>> r.getcode|() 

200 

>>> r.geturl() 
'http://cn.bing.com/?scope-web&setmkt-zh-CN&setmkt-zh-CN&setmkt-zh-CN' 
200 T. inion 

«http.client.HTTPMessage object at 0x0000018EB53E6E10» 


如 果 要 发 送 POST 请 求 ， 就 需要 加 上 data 参数 : 


data = bytes(urllib.parse.urlencode(íname: Li}), encoding- 'utf8') 


r = urllib.request.urlopen('http://example.com', data-data) 


2.6.2 使 用 Cookie 


Cookie 是 当 浏 览 某 网 站 时 ， 网 站 存储 的 信息 文件 ， 它 记录 了 用 户 的 了、 密码 、 浏 览 记 录 、 浏 
览 时 间 等 信息 。 当 同一 用 户 再 次 访问 该 网 站 时 ， 网 站 通过 读 取 Cookie， 获 取 用 户 的 相关 信息 ， 比 
如 用 户 名 、 密 码 ， 用 于 自动 登录 。Cookie 在 爬虫 操作 中 很 和 常用， 特别 是 针对 一 些 需 要 登录 才能 抓 
取信 息 的 网 站 的 抓 取 工作 。 使 用 udlb 操作 网 站 Cooke 需要 用 到 
urllib requestHTTPCookieProcessor(cookie)。 使 用 Cookie 需要 创建 一 个 opener. fF Python 的 http 
包 中 包含 cookiejar 模块 ， 用 于 提供 对 Cookie 的 文 持 。http.cookiejar 功能 强大 ， 我 们 可 以 利用 本 模 
块 的 CookieJar 类 的 对 象 来 捕获 Cookie， 并 在 后 续 连 接 请 求 时 重新 发 送 ， 比 如 可 以 实现 模拟 登录 功 
能 。 使 用 方法 如 下 : 

【示例 2-7】urllib 获取 Cookie 


01 # 获取 Cookie 

02 import http.cookiejar, urllib.request 

03 cookie = http.cookiejar.CookieJar() 

04 handler = urllib.request.HTTPCookieProcessor (cookie) 
05 opener - urllib.request.build opener (handler) 

06 response - opener.open('http://www.baidu.com') 

07 for item in cookie: 

08 print (item.name-"-"-citem.value) 


输出 结果 如 图 2.12 所 示 。 
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BDSVRTM-8 
BD HOME-0 


2.12 获取 Cookie 


【示例 2-8] urllib 保存 Cookie 


01 4 fff Cookie 
02 filename = 'saved cookies.txt' 
03 4 FileCookieJar. MozillaCookieJar. LWPCookieJar 均 为 保存 Cookie 信息 ， 只 是 保 


存 格式 不 同 ， 读 者 可 目 行 尝试 


04 cookie = http.cookiejar.MozillaCookieJar(filename) 
05 handler - urllib.request.HTTPCookieProcessor (cookie) 
06 opener - urllib.request.build opener (handler) 

07 response = opener.open('http://www.baidu.com') 


08 cookie.save(ignore discard-True, ignore expires-True) 


保存 结果 如 图 2.13 所 示 。 


司 saved cookies - 054 
文件 上 昌 SE tex) Xx aiw 
# Netscape HTTP Cookie File 
# http;/curl.haxx.se/rfc/cookie spec.html 
# This is a generated file! Do not edit. 


.baidu.com TRUE 3694093289 BAIDUID A760767B529^A2688A5553479BB3C533F-FG21 
.baidu.com TRUE 3694093289 BIDUPSID A760767B529A2688A5553479BB3C533F 
.baidu.com TRUE H PS PSSID 1454 21108 28206 28132 27245 

.baidu.com TRUE 3694093289 PSTM 1546609642 

.baidu.com TRUE delPer 0 

www.baidu.com FALSE BDSVRTMO 

www.baidu.com FALSE BD HOMEO 


Windows (CRLF) $15,815 


2.13 保存 Cookie 
【示例 2-9] urllib 使 用 Cookie 


01 # 使 用 Cookie 
02 import http.cookiejar, urllib.request 
03 cookie = http.cookiejar.MozillaCookieJar() 


04 cookie.load('saved cookies.txt', ignore discard-True, 


ignore expires-True) 


05 handler = urllib.request.HTTPCookieProcessor (cookie) 
06 opener - urllib.request.build opener (handler) 

07 response - opener.open('http://www.baidu.com') 

08 print(response.read().decode('utf-8')) 
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运行 结果 如 图 2.14 所 示 。 


图 2.14 使 用 Cookie 


2.7 ”有 爬虫 常用 类 库 2: 更 人 性 化 的 第 三 方 库 requests 


相 比 于 urllib， 第 三 方 库 requests 更 加 简单 与 人 性 化 ， 是 仆 虫 工作 中 常用 的 库 ， 推 荐 大 家 安装 。 
安装 requests 有 两 种 方法 : 

e 通过 pip install requests 直接 安装 。 

e TZ Github 源码 ( https://github.com/requests/requests )， 运 行 setup.py 进行 安装 。 


下 面 看 一 下 requests 的 基本 使 用 方法 。 
【示例 2-10] requests 库 的 基本 使 用 


01 import requests 
02 
03 r = requests.get(url-'http://www.bing.com') 


04 print(r.content) 


可 以 看 到 ，requests 发 送 HTTP 请 求 非 常 简 单 ， 指 定 请 求 的 URL 之 后 ， 发 送 请 求 。 其 他 几 种 
HTTP 请 求 方式 为 : 


requests.post('http://httpbin.org/delete') 

= requests.put('http://httpbin.org/put', data = ('key':'value']) 
requests.delete('http://httpbin.org/delete') 

= requests.head('http://httpbin.org/get') 


了 ES 
I 


= requests.options('http://httpbin.org/get') 


下 面 以 GET 与 POST 请 求 方式 为 例 进行 requests 库 的 讲解 。 
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2.7.1 发 送 请 ; 
1. GET 请 求 


在 基本 用 法 中 已 经 展示 了 如 何 发 送 GET Hk. GET 方法 一 般 用 在 查询 中 ， 查询 都 是 带 有 参数 
进行 查询 ， 比 如 使 用 Bing 搜索 requests， 我 们 可 以 看 到 地 址 栏 中 的 URL 是 这 样 的 : 


https://cn.bing.com/search?q-requests&qs-n&form-QBLH &sp--1 &pq-requests&sc-8-8&sk-&cv 
1d-72590B4841C941B79094E826A134CC50 


在 开发 人 员工 具 中 ， 我 们 可 以 看 到 查询 时 使 用 的 参数 ， 如 图 2.15 所 示 。 


Name X Headers Preview X Response Cookies Timing 
"USBI-Agent Mozilla/5.8 (Windows NI 18.8; Winba; X64) App ~ 
| | search?q-requests&qs - HS&pq -requests&sc-8-B&icvid - 3FF158958824F9BB6EOCO105EA6BD7C& FORM - QBLH&isp - 1 mr — sd dessins 


. leWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 
| | SharedSpriteDesktopRewards 022118.png 


. Safari/537.36 
| | data:image/png;base 


*| 925e333d-5370-4171-8ac2-2e7053c4518f.png&w- 86&h- 86&rs- 0 v Query String Parameters 


'*| data:image/png;base... q: requests 


B datacimage/png;base... qs: HS 


Bi data: image/Jpeg;bas pq: requests 


data:image/jpeg;bas sc: 8-8 
data:image/pngj,base... cvid: 3FF015895B824F98B6E0CO105EAGBD7C 
FORM: QBLH 


sp: 1 


. | data-image/gif/base... 
data imane/inen has 


46 requests | 67.4 KB transferred 1 Finish: 19 min 1 DOMContentLoaded: 415 ms | Load: 422 ms 

215 GET 请 求 参 数 

“q” 对 应 的 是 查询 数据 ， 也 就 是 “requests”， 其 他 的 则 是 浏览 器 目 带 的 参数 ， 代 码 如 下 : 
【示例 2-11] requests 传递 URL 请 求 数 据 


01 import requests 
02 
03 payload = ( 


04 'q': 'requests', 

05 gg i-i HE 

06 'pd': 'requests', 

07 THp eB Bi 

08 'cvid': '3FF015B95B824F98B6E0CO105EA6BD7C', 
09 "rrom : ÜBER. 

10 "ans f) 


11 response = requests.get(url-'http://www.bing.com', params-payload) 
打印 请 求 后 的 URL: 
http://cn.bing.com/search?q-requests&qs-HS &pq-requests&sc-8-8&cvid-3FF015B95B824F98B6 
E0C0105EAG6BD7C&from-QBLH&sp-1 


只 需 添加 params 参数 即 可 。 需要 注意 的 是 , 请 求 参数 中 有 值 为 None 的 键 , 是 不 会 添加 到 URL 
的 查询 字符 串 中 的 。 
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2. POST 请 求 


POST 请 求 一 般 用 在 有 数据 交互 的 情形 ， 比 如 注册 账号 、 修 改 密码 等 。requests 传递 POST 很 
简单 ， 只 需 将 请 求 数据 传递 给 data 即 可 : 


【示例 2-12】requests 传递 表单 数据 


01 import requests 


02 

03 payload = { 

04 'keyl':'valuel', 
05 'key2':'value2' 
06 } 


07 response = requests.post(url-'http://www.bing.com',data-payload) 
有 时 请 求 的 参数 要 求 为 JSON 格式 ， 则 发 送 的 时 候 使 用 json 参数 即 可 : 


response = requests.post(url-'http://www.bing.com', json-payload) 


2.7.2 请求 头 


当 我 们 打开 一 个 网 页 时 ， 浏 览 器 要 回 网 站 服务 器 发 送 一 个 HTTP 请 求 头 ， 然 后 网 站 服务 器 根 
据 HTTP 请 求 头 的 内 容 生成 当 次 请 求 的 内 容 发 送 给 浏览 器 。 我 们 可 以 手动 设 定 请 求 头 的 内 容 : 

>>> import requests 

>>> user agent-'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 
(KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36' 

>>> headers = [('User-Agent':user agent] 


>>> response = requests.get('http://www.baidu.com',headers-headers) 


2.73 响应 内 容 


发 送 请 求 之 后 ， 会 接收 到 服务 器 啊 应 的 内 容 ， 提 取 啊 应 内 容 有 两 种 形式 : 一 种 是 文本 形式 ; 
另 一 种 是 二 进 制 形式 。 在 文本 形式 中 ，requests 会 根据 响应 头 中 的 编码 信息 自行 解码 : 


>>> import requests 

>>> r = requests.get('http://blog.jobbole.com/all-posts/') 

>>> r.encoding 

*utt-g' 

»»» r.text 

'«!DOCTYPE html»... «link rel-"apple-touch-icon" 
href-"http://jbcdn2.b0.upaiyun.com/2013/12/jobbole-blog-logo-mobile.png" 
/»NrMnNCtNrMAnNt«!-- RSS, Atom & Pingbacks --»MNrMnNCNC&link rel-"alternate" title-" 
文章 &4$8211; 伯乐 在 线 RSS Feed" href-"http://blog.jobbole.com/feed/" />\r\n\... 

22» r.content 

b'«!DOCTYPE html»...  «!-- RSS, Atom & Pingbacks --»WMrWMnNtNCt«link 
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rel-"alternate" title="\xe6\x96\x87\xe7\xab\xa0 &#8211; 
\xe4\xbc\xaf\xe4\xb9\x90\xe5\x9c\xa8\xe7\xba\xbf RSS Feed" 
href-"http://blog.jobbole.com/feed/" .. 


当 返 回 内 容 为 JSON 格式 时 ， 可 使 用 requests P3 ELI JSON 解码 器 进行 数据 处 理 : 


>>> import requests 


>>> r-requests.get('https://segmentfault.com/api/live/recommend?') 

SO SOn) 

['status'- D, 'data': [l'ad': *1580000015237807". 'urt*': 
'/1/1500000015237807', 'title': "浏览 器 工作 原理 及 在 网 页 性 能 优化 中 的 应 用 " , "startWora': 
'2018-06-11 周一 '， 'joinedUsers': '131', 'averageScore': '4.7', 'isFinished': 1, 
"Drpe' s: 79.90". —T 


2.7.4 啊 应 状态 码 


服务 器 返回 啊 应 内 容 时 ， 也 包含 相应 的 啊 应 码 : 


>>> import requests 


>>> r = requests.get('http://bing.com') 
>> r.status code 
200 


requests 也 内 置 了 状态 码 查 询 对 象 : 


>>> r = requests.get('http://bing.com') 
22» r.status code 

200 

>>> r.status code == requests.codes.ok 
TruE 


如 果 HTTP 请 求 发 生 错 误 , 比如 4** 客 户 端 错误 、5** 服 务 器 错误 , 则 可 以 使 用 raise for status() 
抛 出 异常 : 


>>> r-requests.get('https://cn.bing.com/no-this-page') 
»2o r status code 
404 
29» Ti raise For sbdtust] 
Traceback (most recent call last): 
File "«stdin»", line 1, in «module» 
File "C:NUsersNtestMAppDataNLocalNProgramsVMPythonMPython36MlibN 
site-packagesNrequests models.py", line 939, in raise for status 
raise HTTPError(http error msg, response-self) 
requests.exceptions.HTTPError: 404 Client Error: Not Found for url: 
https://www4.bing.com/no-this-page 
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2.7.5 cookies 参数 
requests 操作 Cookie 很 简单 ， 只 需 指 定 cookies 参数 即 可 。 


a Cookie 内 容 需 要 以 dict 形式 传递 。 


在 啊 应 中 ， 可 以 指定 字段 获取 Cookie 值 : 


>>> import requests 


>>> r = requests.get('https://www.csdn.net/"') 
>>> r.cookies['uuid tt dd'] 
'1489347943734346625 20181014' 


要 在 请 求 的 时 候 携 带 Cookie， 只 需 指 定 cookies 参数 即 可 : 


25» my cOok4es — ['EesE cookie - CHIS 15 a EESEL] 


>>> r = requests.get('http://www.bing.com',cookies-my cookies) 


27.6 Z;E[5iBXpmse 


重 定 问 是 指 将 网 络 请 求 重新 转 同 其 他 位 置 ， 例 如 网 站 迁移 ， 访 问 原 网 址 时 自动 转 到 新 的 网 址 ， 
或 者 其 他 原因 跳 转 到 新 的 网 址 。 默认 情况 下 , 除了 head 方法 外 , requests 会 自动 处 理 所 有 的 重 定 问 ， 
也 可 以 手动 设 定 allow redirects 参数 为 True 或 者 False 来 开启 或 禁止 重 定 同 ， 例 如 r=requests.get 
(http://www.z.cn',allow redirects=False)。 

如 果 人 允许 重 定向 ， 可 以 使 用 啊 应 对 象 的 history 方法 来 查看 跳 转 信 息 。 查 看 如 下 示例 ，Github 
将 所 有 的 HTTP WREE hF) HTTPS: 


>>> import requests 
252» 

>>>r = requests.get('http://github.com') 
>>> PT 
"https://github.com/' 
OE 

>>> r.status code 
200 

DK 

poc pnrPsStory 
[<Response [301]»] 
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2.7.7 超时 


可 以 指定 timeout 参数 来 设 定 等 待 网 站 啊 应 的 时 间 〈 单 位 : 秒 ) ， 超 过 设 定 时 间 之 后 停止 等 待 。 


>>>import requests 
>>> requests.get('http://www.bing.com', timeout-0.001) 


requests.exceptions.ConnectTimeout: HTTPConnectionPool (host-'www.bing.com', 
port-80): Max retries exceeded with url: / (Caused by ConnectTimeoutError 
(«urllib3.connection.HTTPConnection object at 0x00000266B6367208», 'Connection 
to www.bing.com timed out. (connect timeout-0.001)')) 


2.7.8 设置 代理 


当 某 些 网 站 对 访问 卫 有 限制 (如 地 域 限制 或 次 数 限制 )》 时 ， 我 们 可 以 使 用 代理 来 绕 过 限制 。 
requests 使 用 代理 只 需 指定 proxies 参数 即 可 : 


>>>import requests 

> 

>>> proxie = { 
“EenEEp yI 10-10: 1: 10231287. 
"hEtps":"hEFp-: //10-10.1.- 10:10803 


22» 


»»»requests.get("http://example.org", proxies-proxies) 


如 果 代 理 需 要 使 用 验证 ， 可 以 使 用 http://user:password@host/ 语 法 : 


>>>proxies = ( 
"http": e bttp://uUsSer:passal 0- T0. le LO 3128/7; 


279 会 话 对 象 


会 话 对 象 是 一 种 高 级 的 用 法 ， 可 以 跨 请 求 保 持 某 些 参 数 ， 比 如 可 以 在 同一 个 Session 实例 之 间 
保存 Cookie， 像 浏览 器 一 样 ， 我 们 并 不 需要 每 次 请 求 指 定 Cookie, Session 会 自动 在 后 续 的 请 求 中 
添加 获取 的 Cookie， 这 种 处 理 方式 在 同一 站 点 连续 请 求 中 特别 方便 : 


>>>import requests 

>>> 

>>> S = requests.Session() 

> 

>>> s.get('http://httpbin.org/cookies/set/sessioncookie/123456789') 
>>> r — s.get ("http://httpbin.org/cookies") 
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> 
»»» print(r.text) 
{ 
"cookies": | 
"sessioncookie": "123456789" 
} 
} 


但 需要 注意 的 是 ， 即 使 使 用 了 Session 对 象 ， 方 法 级 别 的 参数 也 不 会 跨 请 求 保 持 ， 例 如 在 发 送 
请 求 时 ， 我 们 手动 指定 的 cookies 参数 ， 在 下 一 次 发 送 请 求 时 并 不 会 保存 使 用 。 下 面 的 例子 在 第 一 
次 请 求 时 指定 的 参数 ， 在 第 二 次 请 求 时 失效 : 


>>> import requests 


>>>S — requests.Session() 
>>> 
»»»r-s.get('http://httpbin.org/cookies', cookies={'"first-request-cookies': 
A D 

»»»print (r.text) 
{ 

"bDokies": [| 

"first-request-cookies": "first" 

} 

} 


>>>r = s.get('http://httpbin.org/cookies') 
»»»print (r.text) 
{ 


"coDkies": TI 


) 


2.8 怜 虫 常用 类 库 3. 元 素 提取 利器 BeautifulSoup 


BeautifulSoup 是 一 个 可 以 从 HTML 或 XML 文件 中 提取 数据 的 Python 库 ， 可 以 很 方便 地 进行 
文档 的 导航 、 碍 找 或 修改 。 在 爬虫 工作 中 ， 和 党 用 的 是 查找 功能 。 


2.8.1 安装 BeautifulSoup 


如 果 使 用 的 是 新 版 的 Debian 或 Ubuntu， 那么 可 以 通过 系统 的 软件 包 管 理 来 安装 : 

apt-get install Python-bs4 

BeautifulSoup 4 通过 PyPi 发 布 ， 如 果 无 法 使 用 系统 包 管 理 安装 ， 那 么 可 以 通过 easy install 或 
pip 来 安装 。 包 的 名 字 是 beautifulsoup4, iX 83€ 7€ Python fll Python 3. 
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easy install beautifulsoup4 


pip install beautifulsoup4 


2.8.2 ZEE 


BeautifulSoup 3: f$ Python 标准 库 中 的 HTML 解析 器 ， 还 支持 一 些 第 三 方 的 解析 器 ， 其 中 一 个 
是 Ixml. Ixml 解析 速度 很 快 ， 在 后 面 的 爬虫 开发 中 我 们 主要 使 用 此 解析 器 。 根 据 操作 系统 不 同 ， 
可 以 选择 下 列 方法 来 安装 Ixml: 


apt-get install Python Txml 
easy install lxml 
pip install lxml 


在 Windows 系统 下 ， 如 果 在 安装 过 程 中 提示 其 他 错误 信息 ， 这 几 种 方法 都 无 法 安装 ， 那 么 可 
以 下 载 kml 文件 安装 , 在 网 站 https://www.Ifd.uci.edu/-gohlke/pythonlibs/Zlxml 提供 了 很 多 第 三 方 安 
装 包 ， 根 据 Python 版 本 及 操作 系统 选择 对 应 的 文件 下 载 ， 如 图 2.16 所 示 。 


Lxml, a binding for the libxml2 and libxslt libraries. 
Ixrni-4.2.6-cp27-cp27 m-win32.whl 
Ixmi-4.2.6-cp27-cp27m-win amd64.whl 
Ixmil-4.2.6-cp34-cp34m-win32.whl 
Ixmi-4.2.6-cp34-c -win . 
Ixrni-4.2.6-cp35-cp35m-win22.whl 
Ixmi-4.2.6-cp35-cp35m-win amd64.whl 
Ixmi-4.2.6-cp36-cp36m-win32 whl 
Ixrni-4.2.6-cp36-cp36m-win. amd64.whl 
Ixml-4.2.6-cp37-cp37 m-win32.whl 
Ixmi-4.2.6-cp3/-cp3/m-win amd64.whl 
Ixmni-4.3.0-cp27-cp27 m-win32.whl 
Ixml-4.3.0-cp27-cp27 m-win amd64.whl 
Ixmi-4.3.0-cp34-cp34m-win32.whl 
Ixmi-4.3.0-cp34-cp34m-win . 
Ixrl-4.3.0-cp35-cp35m-win32.whl 
Ixmi-4.3.0-cp35-cp35m-win amd64.whl 
Ixmi-4.3.0-cp36-cp3e6m-win32.whl 
Ixmi-4.3.0-cp36-cp36m-win amd64.whl 
Ixmi-4.3.0-cp37-cp37 m-win32.whl 
Ixmi-4.3.0-cp3/-cp3/m-win amde4.whl 


图 2.16 手动 下 载 km 包 
下 载 完成 后 ， 执 行 如 下 命令 进行 安装 : 
pip install lxml-4.3.0-cp37-cp37m-win amd64.whl 
男 一 个 可 供 选 择 的 解析 器 是 纯 Python 实现 的 htmlSlib. htmlSlib 的 解析 方式 与 浏览 器 相同 ， 可 
以 选择 下 列 方法 来 安装 htmlSlib: 


apt-get install Python-htmlb5lib 
easy install html5lib 
pip install html5lib 


表 2-22 列 出 了 主要 的 解析 器 以 及 它们 的 优 缺点 。 
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表 2-22 主要 解析 器 对 比 
解析 器 使 用 方法 攻势 
Python 标准 库 BeautifulSoup(markup, "html.parser") * Python 的 内 置 标准 库 Python 2.7.3 或 
。 执行 速度 适中 3.2.2 前 的 版 本 
。 文档 容错 能 力 强 H "edad 


HN 
。 文档 容错 能 力 强 
san 8 
BeautifulSoup(markup, "xml") 。 唯一 支持 XML 的 解析 器 | 言 库 


htmlslib BeautifulSoup(markup, "html5lib") - 最 好 的 容错 性 速度 慢 , 不 依赖 
。 以 浏览 器 的 方式 解析 文档 | 外 部 扩展 
。 生成 HTML 5 格式 的 文档 


2.8.3 BeautifulSoup 使 用 方法 


有 以 下 包含 HTML 代码 的 字符 串 ， 后 面 的 示例 都 以 此 字符 串 为 例 进行 操作 的 : 


01 html doc = "=m 

02 «html»«head»«title»The Dormouse's story«c/title»«/head» 

03 «body» 

04 «p class-"title"»«b»The Dormouse's story</b></p> 

05 

06 «p class-"story"»Once upon a time there were three little sisters; 
and their names were 

07 «a href-"http://example.com/elsie" class-"sister" id-"linkl"»5Elsiec/a», 

08 «a href-"http://example.com/lacie" class-"sister" id-"link2"» 
Lacie</a> and 

09 «a href-"http://example.com/tillie" class-"sister" id-"link3"» 
Tilliec/a»; 

10 and they lived at the bottom of a well.«/p» 

11 

12 «p class-"story"»...«/p» 

13 «/body» 

14 «/html» 

Ig mem 


进行 文档 解析 ， 需 要 先 创 建 BeautifulSoup 对 象 ， 有 两 种 方式 可 供 选 择 。 
(1) 直接 通过 字符 串 进行 创建 


from bs4 import BeautifulSoup 


soup = BeautifulSoup (html doc,'lxml"') 
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BeautifulSoup 将 使 用 指定 的 解析 器 来 解析 文档 ， 若 未 指定 ， 则 自动 选择 合适 的 解析 器 进行 解 
析 ， 这 里 我 们 指定 为 lxml。 

(2) 通过 打开 文件 来 创建 

假设 我 们 将 HTML 字符 串 中 的 HTML 代码 保存 为 mdex.html 文件 ， 可 以 这 样 创建 对 象 : 


01 from bs4 import BeautifulSoup 
02 soup = BeautifulSoup(open('index.html')) 


BeautifulSoup 对 象 可 以 按照 标准 缩 进 格式 结构 输出: 


01 print(soup.prettify()) 


02 

03 «html» 

04 «head» 

05 «title» 

06 The Dormouse's story 

07 «/title» 

08 </head> 

09 «body» 

10 «p class-"title"» 

IT «b» 

12 The Dormouse's story 

23 «/b» 

14 «/p» 

15 «p class-"story"» 

16 Once upon a time there were three little sisters; and their names were 
17 «a class-"sister" href-"http://example.com/elsie" id-"linkl"» 
18 Elsie 

19 «/a» 

20 ; 

2 <a class="sister" href="http://example.com/lacie" id="link2"> 
22 Lacie 

23 «/a» 

24 and 

29 <a class-"sister" href-"http://example.com/tillie" id-"link3"» 
26 Tillie 

| </a> 

28 ; 

29 and they lived at the bottom of a well. 

30 «/p» 

31 «p class-"story"» 

32 — 

33 «/p» 

34  «/body» 


3H L HEMI > 
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2.84 BeautifulSoup 对 象 


BeautifulSoup 将 复杂 HTML 文档 转换 成 一 个 复杂 的 树 形 结构 ， 每 个 节点 都 是 Python H R, Pr 
有 对 象 可 以 归纳 为 4 种 : 

e Tag 

e NavigableString 

e  BeautifulSoup 


e Comment 


下 面 将 对 这 4 种 对 象 做 详细 介绍 。 
1. Tag 


Tag X1 $$ 5; XML 或 HTML 原生 文档 中 的 标签 相同 ， 如 <title>、<a>、<p> 等 ， 这 些 标签 及 其 内 
容 就 构成 了 一 个 Tag 对 象 。Tag 对 象 使 用 BeautifulSoup 对 象 加 对 应 标签 名 来 提取 ， 如 : 
+ 提取 上 title 对 象 
title = soup.title 
# 提取 a 对 象 
a = soup.a 
Tag 对 象 有 很 多 属性 和 方法 ， 其 中 最 重要 和 常用 的 两 个 属性 是 name 和 attributes. A tag 都 
有 上 自己 的 名 字 ， 可 以 通过 .name 来 获取 : 
print(title.name) 
print (a.name) 


输出 : 


Tag 也 可 以 改变 name 值 ， 如 果 做 了 更 改 ， 就 会 影响 所 有 通过 当前 BeautifulSoup 对 象 生 成 的 
HTML 文档 。 


# 抽取 title 对 象 

tag = soup.title 

print ("tag Pj :") 

print (tag) 

print("tag 名 称 :" + tag.name) 
# 更 改 title 的 name 值 


tag.name - 'newtitle' 
print ("修改 后 tag 内 容 :") 
print (tag) 


print ("修改 后 tag 名 称 :" + tag.name) 


输出 结果 : 
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tag 内 容 : 

«title»The Dormouse's story</title> 
tag 名 称 :title 

修改 后 tag WA: 


«newtitle»The Dormouse's storyc/newtitle» 


修改 后 tag 名 称 :newtitle 


可 以 看 到 ， 原 title 标签 已 经 改 为 newtitle。 
每 个 Tag 可 能 包含 多 个 属性 ， 如 Tag <p class="title"><b>The Dormouse's story</b></p> 中 有 一 


个 class 属性 ， 值 为 “title”。 属 性 的 操作 方式 与 字典 相同 : 


tag = soup.p 
print (tag) 
print (tag['class']) 


输出 结果 : 
<p class-"title"»«b»The Dormouse's story</b></p> 
['title'] 


也 可 以 直接 “点 ” 取 属 性 ， 比 如 使 用 .attrs 来 获取 属性 : 


print(tag.attrs) 


输出 结果 : 

{ classi: p'rtatEte"]] 

Tag 中 的 属性 可 以 增加 、 修 改 、 删 除 : 
tag = soup.a 

print ("修改 前 tag 内 容 与 属性 :") 
print (tag) 

print (tag.attrs) 

# 增加 name 属性 

tag['name'] = 'link-name' 

# 修改 class 属性 

tag['class'] = 'brother' 

+ 删除 ia 属性 

del tag['id'] 

print ("修改 后 tag 内 容 与 属性 : ") 
print (tag) 

print(tag.attrs) 


输出 结果 为 : 
修改 前 tag 内 容 与 属性 : 


«a class-"sister" href-"http://example.com/elsie" id-"linkl"»5Elsie«c/a» 
('href': 'http://example.com/elsie', 'class': ['sister'], 'id': 'linkl')] 
修改 后 tag 内 容 与 属性 : 


«a class-"brother" href-"http://example.com/elsie" 


name-"link-name"»5Elsie-c/a» 
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('href': 'http://example.com/elsie', 'class': 'brother', 'name': 


'link-name'] 
有 些 情 况 下 一 个 属性 的 值 可 能 不 止 一 个 ， 如 <p class-"semantic ui"></p> 称 为 多 值 属 性 。 在 
BeautifulSoup 中 ， 多 值 属性 的 返回 类 型 是 一 个 Hist: 


from bs4 import BeautifulSoup 


soup = BeautifulSoup('«p class-"semantic ui"»«/p»','lxml') 


print (soup.p['class']) 


输出 结果 : 

['semantic', 'ui'] 

如 果 某 个 属性 有 多 个 值 ， 但 该 属性 在 任何 HTML 版 本 中 都 没有 定义 为 多 值 属 性 ， 那 么 将 返回 
一 个 字符 串 而 不 是 list: 


from bs4 import BeautifulSoup 


soup = BeautifulSoup('«p no-definition-"semantic ui"»«/p»','l1xml') 


print(soup.p[' no-definition']) 


输出 结果 : 
semantic ui 
2. NavigableString 
BeautifulSoup 使 用 NavigableString 类 来 包装 Tag 中 的 字符 串 ， 可 以 通过 .string 提取 Tag 中 的 
字符 串 数 据 : 
soup = BeautifulSoup('«p class="page">This is a testc/p»','lIxml') 
tag = soup.p 
print(tag.string) 
输出 结果 : 
This is a test 
Tag 中 包含 的 字符 串 不 能 编辑 ， 但 是 可 以 用 replace_with() 方 法 蔡 换 成 其 他 的 字符 串 : 
soup = BeautifulSoup('«p class-"page"»This is a testc/p»','l1xml') 


tag = soup.p 


print (tag) 
tag.string.replace with("This is another test") 


print (tag) 


输出 结果 : 


<p class-"page"»This is a test</p> 
<p class-"page"»This is another test</p> 
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3. BeautifulSoup 


BeautifulSoup 对 象 表示 的 是 一 个 文档 的 全 部 内 容 。 大 部 分 时 候 ， 可 以 把 它 当 作 一 个 Tag 对 象 。 
因为 BeautifulSoup 对 象 并 不 是 真正 的 HTML 或 XML 的 标签 ， 所 以 它 没有 name 和 attribute 属性 。 
但 有 时 查看 它 的 .name 属性 是 很 有 用 的 ， 所 以 BeautifulSoup 对 象 被 赋予 了 一 个 值 为 “[document]” 
的 特殊 属性 .name。 


print (soup.name) 


输出 


结果 : 


[document] 


4. Comment 


Tag. 


NavigableString. BeautifulSoup 几乎 覆盖 了 HTML 和 XML 中 的 所 有 内 容 ， 但 是 还 有 一 


些 特 殊 对 象 ， 需 要 注意 的 内 容 是 文档 的 注释 部 分 : 


01 
02 
03 
04 
05 
06 
07 


输出 


from bs4 import BeautifulSoup 


html doc - "«p»«!--This is a comment --»«/p»" 
soup = BeautifulSoup(html doc,'lxml"') 

comment = soup.p.string 

print (type (comment) ) 

print (comment) 


结果 : 


«class 'bs4.element.Comment'» 


This is a comment 


可 以 看 到 ， 虽 然 可 以 使 用 .string 提取 文本 数据 ， 但 是 输出 的 类 型 是 一 个 Comment 类 型 ， 这 就 
会 出 现 一 个 问题 , 当 我 们 没有 判断 数据 类 型 时 , 会 提取 到 垃圾 数据 , 处 理 方法 是 加 上 一 个 类 型 判断 : 


01 
02 
03 
04 
05 


from bs4 import BeautifulSoup 


import bs4 
html doc = "«p»«!--This is a comment --»«/p»" 
soup = BeautifulSoup(html doc,'lxml') 


comment = soup.p.string 


if type(comment) == bs4.element.Comment: 
print("comment string,drop it") 
结果 


comment string,drop it 


2.8.5 
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加 历 文 档 树 


HTML 5 XML 文档 都 是 由 一 个 个 标签 组 成 的 , 这 些 标签 可 以 看 作 整 个 文档 树 的 节点 。 像 树 权 
一 样 , 一 个 节点 既 有 上 级 节点 ， 又 包含 次 级 节点 ; 次 级 节点 相对 于 该 节点 称 为 子 节点 ， 上 级 节点 称 
为 父 节 点 ， 与 该 节点 同 级 并 列 的 称 为 兄弟 节点 ， 按 照 节点 顺序 有 前 后 节点 。 下 面 将 分 别 介 绍 。 

我 们 仍 使 用 以 下 包含 HTML 代码 的 字符 串 作为 操作 示例 进行 讲解 : 


01 
02 
01 
02 
03 
04 


05 


06 


07 


08 
09 
10 
TT 
127 
13 
14 
25 


html doc - """ 


«html» 
«head»«title»The Dormouse's storyc«/title»«/head» 
«body» 
<p class-"title"»«b»The Dormouse's storyc/b»«/p» 
<p class-"story"»Once upon a time there were three little sisters; 
and their names were 
«a href-"http://example.com/elsie" class-"sister" id-"linkl"» 
Elsiec/a», 
«a href-"http://example.com/lacie" class-"sister" id-"link2"» 
Lacie</a> and 
«a href-"http://example.com/tillie" class-"sister" id-"link3"» 
Tilliec/a»; 
and they lived at the bottom of a well.</p> 
<p class-"story"»...«/p» 
</body> 
«/html» 
from bs4 import BeautifulSoup 


soup = BeautifulSoup(html doc) 


1. FPA 


一 个 Tag 可 以 包含 其 他 的 Tag， 称 为 该 Tag 的 子 节点 。 在 前 面 介 绍 Tag 对 象 时 ， 我 们 知道 获 
取 一 个 标签 最 简单 的 方法 是 使 用 Tag HJ name, 如 获取 <head> 只 要 用 soup.head 即 可 。 这 个 方法 可 以 
嵌 套 调用 ， 如 想 获 取 <body> 中 的 <p> 标 签 ， 可 以 这 样 : 


soup.body.p 
获取 到 : 
<p class-"title"»«b»The Dormouse's story«c«/b»«/p» 


需要 注意 的 是 , WE body 下 有 多 个 <p> 标 签 , 通过 这 种 方式 , 只 能 获取 到 第 一 个 <p> 标 签 。 Tag 
的 .contents 可 以 将 所 有 子 节 点 以 列表 的 方式 输出 : 


tag = soup.body 


print(tag.contents) 
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输出 结果 : 
[An 


<p class-"title"»«b»The Dormouse's story«c/b»«/p», 
"An', 
«p class-"story"»Once upon a time there were three little sisters; and their 
names were 
«a class-"sister" href-"http://example.com/elsie" id-"linkl"» 
Elsiec/a», 
«a class-"sister" href-"http://example.com/lacie" id-"link2"» 
Lacie</a> and 
«a class-"sister" href-"http://example.com/tillie" id-"link3"» 
Tilliec/a»; 
and they lived at the bottom of a well.c/p», 
"An', 
«p class-"story"».. /D> 


"Anl 
我 们 可 以 获取 该 列表 的 大 小 ， 并 通过 索引 获取 里 面 的 值 : 


tag = soup.body 
print(len(tag.contents)) 


print(tag.contents[5]) 


输出 结果 : 


7 
<p class-"story"»...«/p» 


字符 串 没 有 .contents 属性 ， 因 为 字符 串 没 有 子 节点 。 


Tag 的 .children 属性 可 以 返回 一 个 生成 器 ， 对 子 节点 进行 循环 : 


tag = soup.body 


for i in tag.children: 
print (i) 


输出 结果 : 


<p class-"title"»«b»The Dormouse's story</b></p> 


«p class-"story"»Once upon a time there were three little sisters; and their 
names were 
«a class-"sister" href-"http://example.com/elsie" id-"linkl"» 
Elsiec/a», 
«a class-"sister" href-"http://example.com/lacie" id-"link2"» 
Lacie</a> and 
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«a class-"sister" href-"http://example.com/tillie" id-"link3"» 
Tilliec/a»; 


and they lived at the bottom of a well.«/p» 


«p class-"story"»...«/p» 


如 果 Tag 仅 包含 一 个 字符 串 ， 或 者 仅 包 含 一 个 子 节 点 ,那么 可 使 用 .string 来 获取 这 个 节点 的 字 
符 串 或 者 子 节点 的 字符 串 : 


t «head»«title»The Dormouse's storyc/title»«/head» 
print (soup.title.string) 


print(soup.head.string) 
输出 结果 : 


The Dormouse's story 


The Dormouse's story 


当 Tag 中 包含 多 个 子 节点 时 ， 子 节点 无 法 直接 使 用 .string 来 获取 内 容 ， 因 为 无 法 确定 .string 77 
法 该 调用 哪个 子 节点 的 内 容 ， 导 致 输出 结果 为 None: 


print(soup.body.string) 


输出 结果 : 
None 
多 个 节点 的 情况 可 以 使 用 .strings 属性 循环 获取 内 容 : 


for string in soup.strings: 
print (repr (string)) 


输出 结果 : 

'"An' 

"The Dormouse's story" 

'"An' 

'"An' 

"The Dormouse's story" 

"An! 

'Once upon a time there were three little sisters; and their names WereNn i 
'Elsie' 

An ; 

'Lacie' 

' andMn 2 

Tien 

KINT and they lived at the bottom of a well.' 
"An! 


"An 


"in" 
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BeautifulSoup 对 象 也 看 作 一 个 节点 ， 使 用 .strings 输出 全 部 内 容 。 可 以 使 用 stripped string 去 除 
换行 和 段 首 、 段 末 的 空白 内 容 : 


for string in soup.strings: 


print (repr (string)) 
输出 结果 : 


"The Dormouse's story" 

"The Dormouse's story" 

'Once upon a time there were three little 
'Elsie' 


' FT 
F 


sisters; and their names were' 


'Lacie' 
'and' 
'"Tillie' 


NT and they lived at the bottom of a well.' 


2. Sr 


每 个 Tag 或 字符 串 都 有 父 节点 ，HTML 文档 顶层 节点 <html> 的 父 节点 是 BeautifulSoup 对 象 。 
可 以 通过 .parent 属性 来 获取 某 个 元 素 的 父 节 点 : 

# «head»«title»The Dormouse's story«c/title»«/head» 

title tag - soup.title 

print(title tag) 

print(title tag.parent) 


输出 结果 : 


«title»The Dormouse's story</title> 


<head><title>The Dormouse's story«/title»«/head» 


通过 元 素 的 .parents 属性 可 以 递归 得 到 元 素 的 所 有 父 节 点 ， 以 <body> 标 签 中 第 一 个 <a> 标 签 为 


# «a href-"http://example.com/elsie" class-"sister" id-"linkl"»5Elsie«c/a» 
for parent in soup.a.parents: 


if parent is None: 
print (parent) 
else: 


print (parent.name) 


body 
html 


[document] 
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3. ALTER 


兄弟 节点 属于 同一 级 ， 比 如 在 示例 文档 中 ，<body> 标 签 下 的 3 个 <p> 标 签 互 为 兄弟 节点 ,第 二 
个 <p> 标 签 下 的 3 个 <a> 标 签 互 为 兄弟 节点 ， 都 是 同一 个 元 素 的 子 节 点 。 

可 以 使 用 .next sibling 和 .previous sibling 属性 来 查询 兄弟 节点 : 

print(soup.a.next sibling) 

print(soup.a.next sibling.next sibling) 


print(soup.body.previous sibling) 
print(soup.body.previous sibling.previous sibling) 


输出 结果 : 


, 


«a class-"sister" href-"http://example.com/lacie" id-"link2"»Lacie«c/a» 


X«head»«title»The Dormouse's story«/title»«/head» 

None 

输出 结果 中 第 二 行 的 <a> 标 签 紧 跟 着 的 兄弟 节点 为 “，”。 再 次 明确 一 点 ， 左 右 的 字符 串 、 换 
行 、 空 白 都 可 以 视 作 一 个 节点 。 代 码 中 第 二 行 print 语句 打印 出 <a> 标 签 的 第 二 个 兄弟 标签 ， 也 就 是 
“，” 的 下 一 个 兄弟 标签 。 代 码 中 第 三 行 print 语句 打印 出 <body> 标 签 的 前 一 个 兄弟 标签 ， 是 一 个 
换行 ， 下 一 条 输出 语句 打印 出 <body> 第 二 个 前 兄弟 标签 ， 也 就 是 <head>。 代 码 中 最 后 一 条 输出 语 
名 打印 出 <html> 标 签 的 下 一 个 兄弟 节点 ， 因 为 <html> 标 签 没 有 兄弟 节点 ， 所 以 为 None. 

通过 .next siblings 和 .previous siblings 属性 可 以 对 兄弟 节点 进行 运 代 输出 : 


for i in soup.a.next siblings: 
print (repr (i)) 


输出 结果 : 

GND : 

«a class-"sister" href-"http://example.com/lacie" id-"link2"»Lacie«c/a» 

'" andMn i 

<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a> 
NT and they lived at the bottom of a well.' 


4. 前 后 节点 
前 后 节点 可 以 理解 为 该 节点 前 后 位 置 的 节点 ， 注 意 与 兄弟 节点 按 等 级 划分 不 同 ， 如 
<html><head><title>The Dormouse's story</title></head>，<head> 下 一 个 节点 就 是 <title>。 
可 以 使 用 .next element 和 .previous element 属性 来 访问 前 后 节点 : 
# <head><title>The Dormouse's story</title></head> 


print (soup.head.next element) 
print(soup.title.previous element) 
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«title»The Dormouse's story«/title» 
«Xhead»«title»The Dormouse's story«/title»«/head» 


Ji next elements fll.previous elements 1132: 4X 2&3; HT UJ [n] Bl 8X [9] Je: 77 IR] CARI AVDT VI TES AL 
好 像 文档 正在 被 解析 一 样 : 


soup = BeautifulSoup("<head><title>The Dormouse's story</title></head>", 
wm 
for element in soup.head.next elements: 


print (repr (element)) 


输出 结果 : 


<title>The Dormouse's story</title> 
"The Dormouse's story" 


2.8.0 ”搜索 文档 树 


获取 到 网 页 数据 之 后 ， 接 下 来 的 核心 工作 就 是 提取 、 采 集 数 据 。BeautifulSoup 提供 了 很 多 搜 
索 数据 的 方法 ， 本 节 着 重 介 绍 两 个 方法 : find0 和 find all0， 其 他 方法 读者 可 自行 学 习 。 
我 们 的 操作 示例 仍然 是 : 


01 html doc - """ 

02 «html»«head»«title»The Dormouse's story«c«/title»«/head» 

03 «body» 

04 «p class-"title"»«b»The Dormouse's story</b></p> 

05 

06 «p class-"story"»Once upon a time there were three little sisters; 
and their names were 

07 «a href-"http://example.com/elsie" class-"sister" id-"linkl"»5Elsiec/a», 

08 «a href-"http://example.com/lacie" class-"sister" id-"link2"» 
Lacie</a> and 

09 «a href-"http://example.com/tillie" class-"sister" id-"link3"» 


Tilliec/a»; 
10 and they lived at the bottom of a well.«/p» 
11 
12 «p class-"story"»...«/p» 
: p dd 


14 from bs4 import BeautifulSoup 
15 soup = BeautifulSoup(html doc,'lxml') 


先 来 看 看 这 两 个 搜索 方法 支持 的 筛选 类 型 ， 这 些 筛选 类 型 可 以 使 用 字符 串 、Tag 名 称 、 属 性 ， 
甚至 方法 ， 并 且 可 以 混合 使 用 ， 看 下 面 的 例子 : 
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1. 字符 串 筛选 


传 入 字符 串 是 最 简单 的 筛选 方式 ， 以 下 操作 将 吗 选 出 所 有 的 <b> 标 签 : 
print (soup.find all('b')) 


输出 结果 : 
[<b>The Dormouse's story</b>] 


2. 正则 表达 式 


如 果 传 入 一 个 正则 表达 式 对 象 , BeautifulSoup 就 会 通过 正则 表达 式 的 search0 方 法 来 匹配 内 容 ， 
如 下 将 匹配 <b> 和 <body> 标 签 : 

01 import re 

02 soup = BeautifulSoup(html doc,'lxml') 

03 for tag in soup.find alt(re.compile(" b")): 

04 print (tag.name) 

输出 结果 : 

body 

b 


3. 列表 
传 入 一 个 列表 时 ， 将 会 匹配 列表 中 的 任意 一 个 标签 元 素 : 


for tag in soup.find all([l"a","b"]): 
print (tag) 


输出 结果 : 


<b>The Dormouse's story</b> 
«a class-"sister" href-"http://example.com/elsie" id="linkl">Elsie</a> 
«a class-"sister" href-"http://example.com/lacie" id-"link2"»Lacie«c/a» 


«a class-"sister" href-"http://example.com/tillie" id-"link3"»Tilliec/a» 


4. True 


传 入 True 时 ， 会 返回 所 有 的 节点 ， 但 不 包括 字符 串 节 点 : 


[<b>The Dormouse's story</b>] 
for tag in soup.find all(True): 
print (tag.name) 


输出 结果 : 


html 
head 
title 
body 
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D p m'o o'g 


p 

5. 自 定 义 方 法 

当 没 有 合适 的 筛选 参数 可 供 选 择 时 ， 可 以 自 定 义 一 个 筛选 方法 。 该 方法 只 能 接收 一 个 元 素 作 
为 参数 ， 若 元 素 满 足 方法 中 的 条 件 ， 则 返回 Tre, FURE False. Ffürp, $mi*iBES S class 
属性 又 含有 id 属性 的 元 素 : 


<b>The Dormouse's story</b> 
def has class and id(tag): 

return tag.has attr("class") and tag.has attr('id') 
for tag in soup.find all(has class and id): 


print (tag) 


输出 结果 : 


«a class-"sister" href-"http://example.com/elsie" id-"linkl"»Elsiec/a» 
«a class-"sister" href-"http://example.com/lacie" id-"link2"»Lacie«c/a» 
«a class-"sister" href-"http://example.com/tillie" id-"link3"»Tillie«c/a» 


6. find all() 方 法 
find all0 方 法 原型 : 


find all(name, attrs, recursive, string, limit, **kwargs) 
参数 说 明 : 
(1) name 参数 ， 可 以 查找 所 有 名 字 为 name 的 Tag， 字 符 串 对 象 会 被 自动 忽略 探 。 类 型 可 以 
为 上 述 介绍 的 筛选 参数 的 任意 类 型 。 
(2) kwargs 参数 ， 任 何 未 被 识别 为 Tag 的 参数 都 将 作为 Tag 属性 来 筛选 数据 ， 例 如 传递 一 个 
id 参数 ，BeautifulSoup 将 会 搜索 每 个 Tag 的 id 属性 : 
print(soup.find all(id-"linkl")) 
输出 结果 : 
[<a class-"sister" href-"http://example.com/elsie" id="linkl">Elsie</a>] 
搜索 指定 名 字 的 属性 时 ， 不 仅 可 以 使 用 字符 串 作 为 参数 值 ， 正 则 表达 式 、 列 表 、True 都 可 以 


使 用 。 
使 用 正则 表达 式 搜 索 : 


print (soup.find all(href-re.compile ("elsie"))) 
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[<a class-"sister" href-"http://example.com/elsie" id-"linkl"»5Elsiec/a»] 
使 用 列表 作为 属性 值 搜 索 ， 会 查找 对 应 于 列表 中 每 一 个 值 的 Tag: 
print(soup.find all(id-["linkl","link3"])) 


输出 结果 : 


[<a class-"sister" href-"http://example.com/elsie" id="linkl">Elsie</a>, 
«a class-"sister" href-"http://example.com/tillie" id="link3">Tillie</a>] 


使 用 True 作为 属性 值 ， 只 要 包括 该 属性 的 Tag 都 会 被 搜索 到 : 


print(soup.find all(id-True)) 


输出 结果 : 


[<a class-"sister" href-"http://example.com/elsie" id-"linkl"»5Elsiec/a», 
«a class-"sister" href-"http://example.com/lacie" id-"link2"»Laciec/a», 
«a class-"sister" href-"http://example.com/tillie" id-"link3"»Tilliec/a»] 


仍然 有 些 属 性 在 搜索 的 时 候 不 能 使 用 ， 比 如 HTML 5 中 的 data-* 属 性 : 


data soup = BeautifulSoup('«div data-foo-"value"»foo!«/div»') 

print(data soup.find all(data-foo-"value")) 

这 样 会 报 出 一 个 错误 : 

SyntaxError: keyword can't be an expression 

说 明 data-foo 不 能 作为 属性 被 直接 搜索 , 但 是 我 们 可 以 通过 attr 参数 定义 一 个 字典 来 搜索 这 类 
特殊 属性 : 


data soup = BeautifulSoup('«div data-foo-"value"»foo!«/div»') 


print(data soup.find all(attrs-["data-foo":"value"])) 


输出 结果 : 
[<div data-foo-"value"»foo!«/div»] 
还 有 一 个 需要 特别 注意 的 地 方 是 ， 使 用 class 属性 搜索 时 ， 由 于 和 Python 中 的 关键 字 class 71 
突 ， 因 此 在 使 用 该 属性 时 需要 写作 class ， 注 意 下 男 线 : 


soup = BeautifulSoup (html doc,'lxml') 
print (soup.find all('a',class -'sister')) 


输出 结果 : 


[<a class-"sister" href-"http://example.com/elsie" id-"linkl"»Elsiec/a», 
«a class-"sister" href-"http://example.com/lacie" id-"link2"»Laciec/a», 
«a class-"sister"href-"http://example.com/tillie" id-"link3"»Tillie«c/a»] 
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(3) text 参数 ,可 以 搜索 文档 中 的 字符 串 内 容 , 还 可 以 查找 Tag. 与 name 参数 的 可 选 值 一 样 ， 
text 参数 接收 字符 串 、 正 则 表达 式 、 列 表 、True: 

print(soup.find all(text-"Elsie")) 

prinL[soup.Eind atlt(Lext-['Bbisie sr Lacle V. TaE Ee Tu 

print(soup.find all(text-re.compile('Dormouse'))) 

print(soup.find all("a", text-"Elsie")) 


输出 结果 : 

['Elsie'] 

["Eisiec', "bacio", Eee 

["The Dormouse's story", "The Dormouse's story"] 

[<a class-"sister" href-"http://example.com/elsie" id-"linkl"»5Elsiec/a»] 


(4) limit 参数 ， 限 制 返回 的 结果 数 。 如 下 例 ， 符 合 条 件 的 结果 有 3 个 ， 通 过 limit 参数 限制 
返回 两 个 : 

print (soup-find all('a',limit-2)) 

输出 结果 : 


[<a class-"sister" href-"http://example.com/elsie" id-"linkl"»5Elsiec/a», 
«a class-"sister" href-"http://example.com/lacie" id-"link2"»Laciec/a»] 


(5) recursive 参数 ， 调 用 Tag 的 find all0 方 法 时 ，BeautifulSoup 会 检索 当前 Tag 的 所 有 子孙 
节点 ， 如 果 只 想 搜索 Tag 的 直接 子 节点 ， 则 可 以 使 用 参数 recursive=False。 


7.find() 方 法 


与 fnd_all0 唯 一 的 不 同 点 是 ，find_all0 返 回 的 是 满足 条 件 的 所 有 结果 的 列表 ， 而 findo RiR El 
一 条 结果 。 

除了 find all0 与 find0 方 法 外 ，BeautifulSoup 中 还 有 10 个 用 于 搜索 的 API。 它 们 中 的 5 个 用 
的 是 与 find all0 相 同 的 搜索 参数 ， 另 外 5 个 与 find0 方 法 的 搜索 参数 类 似 ， 区 别 仅 仅 是 文档 搜索 的 
部 分 不 同 ， 见 表 2-23. 


表 2-23 find() 方 法 的 使 用 


方法 说 明 
find parents( name , attrs , recursive , text , **kwargs ) 用 来 搜索 当前 节点 的 父辈 节点 ，find parentO 查 找 符合 
find parent( name , attrs , recursive , text , **kwargs ) 条 件 的 第 一 个 结果 ,find parents0 返 回 符合 条 件 的 结果 


列表 
find next siblings( name , attrs , recursive , text , | 通过 .next siblings 属性 对 当前 tag 的 所 有 后 面 的 兄弟 
**kwargs ) tag TAITI, find. next. siblings0 方 法 返回 所 有 符 


find next sibling( name , attrs , recursive , text , | 合 条 件 的 后 面 的 兄弟 节点 列表 ，find next sibling) H 
**kwargs ) 返回 符合 条 件 的 后 面 的 第 一 个 tag 节点 
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( 续 表 ) 

方法 说 明 

find previous siblings(name,attrs, recursive . text , | 通过 .previous siblings 属性 对 当前 tag 的 前 面 的 兄弟 
**kwargs ) tag 节点 进行 迭代 ，find previous siblings0 方 法 返回 所 
find previous sibling(name, attrs , recursive , text . | 有 符合 条 件 的 前 面 的 兄弟 节点 , find previous sibling() 
**kwargs ) 方法 返回 第 一 个 符合 条 件 的 前 面 的 兄弟 节点 

find all next(name , attrs , recursive , text , **kwargs ) 通过 .next_ elements 属性 对 当前 tag 之 后 的 tag 和 字符 
find next( name , attrs , recursive , text , **kwargs ) PHTI, find all next0 方 法 返回 所 有 符合 条 件 的 


节点 ，find next0 方 法 返回 第 一 个 符合 条 件 的 节点 
find all previous( name , attrs , recursive , text , | 通过 .previous elements 属性 对 当前 节点 前 面 的 tag 和 


**kwargs ) 字符 串 进行 迭代 ，find all previous0 方 法 返回 所 有 符 
find previous( name , attrs , recursive , text, **kwargs ) | 合 条 件 的 节点 ，find_previous0 方 法 返回 第 一 个 符合 条 
件 的 节点 


2.8.7 BeautifulSoup 中 的 CSS 选择 器 


BeautifulSoup 支持 大 部 分 的 CSS 选择 器 , 在 Tag 或 BeautifulSoup 对 象 的 .select0 方 法 中 传 入 对 
应 CSS 语法 的 字符 串 参 数 即 可 找到 目标 Tag: 


(1) 通过 Tag 标签 名 查找 


# 通过 标签 名 直接 查找 

print (soup.select ("title")) 

# 通过 标签 逐 层 查 找 
print(soup.select("html title")) 
# EREA Tag 标签 下 的 直接 子 标签 


print (soup.select ("p > a")) 


输出 结果 : 


[<title>The Dormouse's storyc/title»] 

[«title»The Dormouse's story«/title»] 

[<a class-"sister" href-"http://example.com/elsie" id-"linkl"»Elsiec/a», 
«a class-"sister" href-"http://example.com/lacie" id-"link2"»Laciec/a», 
«a class-"sister" href-"http://example.com/tillie" id-"link3"»Tillie«c/a»] 


a .Select0 方 法 返回 的 是 一 个 列表 。 


(2) 通过 CSS 类 名 查找 


print (soup.select(".sister")) 
print (soup.select("[class--sister]")) 
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[<a class-"sister" href-"http://example.com/elsie" id="linkl">Elsie</a>, «a 
class-"sister" href-"http://example.com/lacie" id-"link2"»Lacie«c/a», «a 
class-"sister" href-"http://example.com/tillie" id-"link3"»Tillie-c/a»] 

[<a class-"sister" href-"http://example.com/elsie" id-"linkl"»5Elsiec/a», «a 
class-"sister" href-"http://example.com/lacie" id-"link2"»Laciec/a», «a 
class-"sister" href-"http://example.com/tillie" id-"link3"»Tilliec/a»] 


(3) 通过 JID 查找 


print(soup.select ("£linkl")) 
print(soup.select ("aflink2")) 


输出 结果 : 


[<a class-"sister" href-"http://example.com/elsie" id-"linkl"»5Elsiec/a»] 
[<a class-"sister" href-"http://example.com/lacie" id-"link2"»Lacie«c/a»] 


(4) 通过 是 否 存在 某 个 属性 来 查找 
print (soup.select('a[href]1")) 
输出 结果 : 


[<a class-"sister" href-"http://example.com/elsie" id="linkl">Elsie</a>, «a 
class-"sister" href-"http://example.com/lacie" id-"link2"»Laciec/a», «a 


class-"sister" href-"http://example.com/tillie" id-"link3"»Tillie-c/a»] 
C5) 通过 属性 值 来 查找 
print(soup.select('a[href-"http://example.com/elsie"]')) 
print(soup.select('a[href^-"http://example.com/"]"')) 
print (soup.select('a[href$-"tillie"]")) 
print(soup.select('a[href*-".com/e1"]')) 


输出 结果 : 


[<a class-"sister" href-"http://example.com/elsie" id="linkl">Elsie</a>] 

[<a class-"sister" href-"http://example.com/elsie" id="linkl">Elsie</a>, «a 
class-"sister" href-"http://example.com/lacie" id-"link2"»Laciec/a», «a 
class-"sister" href-"http://example.com/tillie" id-"link3"»Tillie«c/a»] 

[<a class-"sister" href-"http://example.com/tillie" id-"link3"»Tilliec/a»] 

[<a class-"sister" href-"http://example.com/elsie" id-"linkl"»5Elsie«c/a»] 


29 ”有 爬虫 常用 类 库 4: Selenium 操纵 浏览 器 


Selenium 是 一 个 上 自动 化 测试 工具 ， 文 持 各 种 浏览 器 ， 包 括 Chrome. Safari. Firefox 等 主流 界 
面 式 浏览 器 。 人 简单 理 解 ，Selenium 可 以 模拟 操作 浏览 器 ， 对 一 些 需 要 动态 加 载 的 页 面 ， 不 需要 我 
们 执行 JavaScript 等 操作 ， 即 可 自动 加 载 完 成 后 的 页 面 。 
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2.9.1 安装 Selenium 


直接 使 用 pip 安装 : 


pip install selenium 
安装 Selenium 之 后 ， 还 需要 下 载 对 应 的 浏览 器 驱动 ， 放 入 系统 路 径 中 : 


Chrome driver: https://sites.google.com/a/chromium.org/chromedriver/home, 
Firefox driver: https://github.com/mozilla/geckodriver/releases., 

IE driver: https://github.com/mozilla/geckodriver/releases. 

Edge driver: https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver., 


检查 一 下 ， 打 开 Python 控制 台 : 
>>>from selenium import webdriver 


»»»driver-webdriver.Chrome() 


»»»driver.get('http://www.bing.com') 


各 能 正常 打开 浏览 器 ， 则 设置 正确 。 


2.9.2 Selenium 的 基本 使 用 方 ; 


0l from selenium import webdriver 
02 import time 
03 
04 driver = webdriver.Chrome() 
05 driver.maximize window () 
06 driver.get(' https://cn.bing.com/"') 
07 drQiver.find element by css selector("IS5b rom g): 
send keys ("selenium") 
08 driver.find element by css selector("£sb form go").click() 
09 time.sleep (2) 
10 driver.quit () 


运行 一 下 代码 ， 查 看 效果 。 可 以 看 到 ， 浏 览 器 先 打 开 了 https://cn.bing.com/， 然 后 窗口 最 大 化 ， 
之 后 在 搜索 框 输入 了 selenium， 然 后 进行 搜索 ， 显 示 搜 索 结 果 ， 两 秒 之 后 ， 浏 览 器 关闭 ， 如 图 2.17 
和 图 2.18 所 示 。 

再 来 分 析 代 码 : 第 01 行 先 从 selenium ÆFA webdriver 模块 ， 浏 览 器 的 基本 操作 都 在 这 个 模 
块 中 。 第 04 行 获取 一 个 Chrome. 浏览 器 驱动 ， 代 表 之 后 使 用 Chrome 进行 操作 。 第 05 
行 .maximize windowO 的 作用 是 浏览 器 窗口 最 大 化 。 第 06 行 .get0 方 法 接收 一 个 URL FF, 之 后 
浏览 器 打开 URL. 第 07 行使 用 了 一 个 定位 元 素 的 方法 .find_element by _css_selector0 来 定位 到 输入 
框 ， 并 通过 .send keys0 输 入 查询 数据 “selenium”。 第 08 行 定 位 到 查询 按钮 ， 使 用 click0 方 法 实 
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现 单 击 操作 ， 显 示 搜索 结果 。 第 09 行 等 待 两 秒 之 后 ， 第 10 行使 用 .quit0 方 法 关闭 浏览 器 。 
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图 2.17 Selenium 打开 浏览 器 


selenium - BAK Bing 


€ © @ https//cn.bingcom/search?q=seleniumě&qs=n&form=QELH&sp=-1&pq=&sc 


Chrome IESERIESSERIGEZHRIDESSM 


b selenium 
hia & DE 


5680.000 SAR FIIR ~ 


Selenium ( 浏览 器 自动 化 测试 框架 )_ 百 度 百 科 

Seleniums$ —^ FHH-WebistFltene Rte R, Selanium Et iz CITIES. ORENA EN 
作 一 赃 。 支 持 了 的 济 芝 器 包括 IE ( 7,8, 9. 10,11) , Mozilla Firefox 

https-Jibaika baidu coryitenVSelenium/18266 ~ 


Selenium - Web Browser Automation zi 

Selenium WebDrrver If you wani to create robust, browser-based regression automation suites and festis 
scale and distribute scripts across many environments 

docs.seleniumhq org v 


REE 


Projecis - Browsers - Download - Salenium Remote Canird - Documentation - Selanum WebDrivar 


selenium Zi | selenium% selenium selenium .. 
Selenium Gnd FUERIS BEAMER HUfeXÉRAARHEZIeelenium server 中 了 
www.selenium org cn * 


selenium - Jis sa 
Š [alinia] dé $ [ezliniam] di) 


i (UMUEÉ.RUPHIERTMBERNSRE, AHHA ETUR S 


mS An: SN: c 


ZEESEY 
Webs 
Hiasan d adod Ho Æ roe 


使 用 Selenium 实现 基于 Web 的 自动 化 测试 

2019-2-6 - Selemum 是 一 -1 Neb 应 用 程序 油污 的 工 上 只。Selenium IMER EUR E(GTEDU 
就 蛤 页 正 的 用 户 在 操作 一 jb &sbidd tB OTP, 其 了 

https /iwww.ibm comy cn/web/1209 camin seleniumweb v 


Selenium 2 入 门 - IBM - United States 


2019-2-15 - Selenium Z- ZAZA Web KITE PEEGUESR. , AFITA, it Seenium 2 结 


图 2.18 操作 浏览 器 搜索 
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2.9.3 Selenium Webdriver 的 原理 


通过 前 面 的 例子 ， 本 小 节 简单 介绍 Selenium 的 运行 原理 。 我 们 将 2.9.2 小 节 的 代码 运行 分 成 3 
部 分 : 

e 浏览 器 

e driver 


e client 


client 就 是 我 们 写 的 代码 ， 我 们 无 须知 道 浏览 器 具体 的 运行 原理 ， 只 需要 调用 driver. M driver 
知道 如 何 驱 动 浏览 器 运行 。 在 Selenium 启动 以 后 ，driver 其 实 充 当 了 HTTP Server 服务 器 的 角色 ， 
负责 client 和 浏览 器 通信 。client 根据 Webdriver 协议 发 送 请 求 给 driver, driver 解析 请 求 后 ， 在 浏 
览 器 上 执行 相应 的 操作 ， 并 把 执行 结果 返回 给 client。 其 中 Webdriver 协议 包含 几乎 所 有 与 浏览 器 
的 交互 操作 。 通 过 这 些 协议 ，client 就 可 以 通知 driver 执行 哪些 操作 。 


2.9.4 Selenium 中 的 元 素 定 位 方法 


Selenium 支持 8 种 元 素 定 位 方法 : 


e find element by 1d() 

find element by name() 

find element by class name() 

find element by tag name() 

find element by link text() 

find element by partial link text() 
find element by xpath() 

find element by css selector() 


下 面 通过 必 应 主页 Chttp;//en.bing.com) 来 演示 。 我 们 定位 到 搜索 输入 框 ， 如 图 2.19 所 示 。 
ne s a mA 一 | Sr "TES 


Oech 


à 
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图 2.19 必 应 主页 输入 框 定位 
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输入 框 的 标签 内 容 为 : 


«input class-"b searchbox" id-"sb form q" name-"q" title=" 输 入 搜索 词 " 
type-"search" value-"" maxlength-"100" autocapitalize-"off" autocorrect-"off" 


autocomplete-"off" spellcheck-"false" aria-controls-"sw as"» 
下 面 使 用 不 同 的 方法 来 定位 。 
通过 id 定位 输入 框 : 
driver.find element by id("sb form q") 
通过 name 定位 输入 框 : 
driver.find element by name ("q") 


通过 classname 定位 输入 框 : 


driver.find element by class name("b searchbox") 


通过 tagname 定位 输入 框 : 


driver.find element by tag name ("input") 

通过 xpath 定位 输入 框 : 

driver.find element by xpath("//input[8id-'sb form q']") 
通过 ess 选择 器 定位 输入 框 : 

driver.TF:ind etement by css selector("Isb form q^) 


对 于 文本 链接 的 定位 ， 有 两 种 方法 。 本 例 以 需要 定位 的 文本 “Outlook.com” 标 签 来 演示 ， 其 
在 浏览 器 开发 工具 中 的 内 容 如 图 2.20 所 示 。 


«a aria-owns-"off menu cont" aria-controls-"off menu cont" 
aria-expanded-"false" target-" blank" onclick-"hpulc4hdr();" 
href-"https://outlook.com/?WT.mc id-Ol6 BingHP?mkt-zh-CN" 
h2"ID-SERP,5018.1"»Outlook.com«c/a» 


Sources Network Performance Memory Ap plication 
<li id-"scpt3" class data-bm-"3^».«/li 
«li id-"scpt4" class data-bm-"4"».«/li 
«li id-"hdr spl" data-ba-"5"»|«/li 
bali id-"office" data-bm-"6"»5..«/1li 
v«]li id-"outlook" data-bm-"7" style-^visibility: visible; 
a aria-owns- off menu cont" aria-controls "off menu cont" aria-expanded "false" target." blank" onclick 
"hpulcahódr();" href-"https;//outlook.com/?WI.mc id=016_ BingHP?mkt-zh-CH'" h- ID-SERP,5018.1"»Outlook.com 
B» == fô 
/li 
/ul 
><div id-"hp id hdr” »..«/div» 
/di 


2.20 VMEK Outlok.com 链接 文本 
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C1) 通过 完整 链接 文本 link text 定位 文本 链接 : 
driver.find element by link text ("Outlookcom") 
(2) 通过 partial linik text 定位 文本 链接 : 


driver.find element by partial linik text ("Outlook") 


29.5 Selenium Webdriver 基本 操作 
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定位 到 元 素 之 后 ， 需 要 进行 一 些 相应 的 操作 ，Webdriver 支持 的 操作 有 很 多 ， 这 里 只 介绍 常用 


的 一 些 方法 ， 如 表 2-24 Br. 
表 2-24 Webdriver 常 用 方法 


方法 说 明 示例 

(1) 浏览 器 操作 

get() driver.get("http://bing.com") 
back() 后 退 上 一 步 driver.get(url1) 
driver.get(url2) 
driver.get(url3) 
driver.back()3& El $1] url2 
driver.get(url1) 

driver .get(url2) 
driver.get(url3) 
driver.back()3& [n] £] url2 
driver. forward()j3& [n] $1| url3 


T" TE 
当 打 开 多 个 窗口 时 ， 会 关闭 所 有 的 窗口 
close() 关闭 当前 窗口 driver.close() 


maximize window() | 浏览 器 最 大 化 driver. maximize window() 


refresh 刷新 浏览 器 driver.refresh() 
刷新 浏览 器 


forward() 


(2) 元 素 操作 
send keys() 同文 本 框 类 型 输入 数据 driver.find element by tag('input.send keys('selenium') 
clear() 清空 输入 的 数据 driverfind element by tag('input)).clear() 


清空 input 输入 框 中 的 内 容 


click() 单 击 事件 driverfind element by tag(button").click() 
单 击 button 按钮 
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( 续 表 ) 
方法 示例 
enter() 触发 键盘 enter 操作 driver.find element by tag('input).send keys('selenium") 
driverfind element by tag(input').enter() 

在 input 输入 框 中 输入 'selenium'， 然 后 进行 回 车 操作 
text() 获取 元 素 的 文本 内 容 driverfind element by partial link text("Outlook").text() 
page source 获取 页 面 HTML 内 容 driver get('http://www.bing.com') 

获取 Bing 首页 页 面 HTML 
(3) Cookie 操作 
get cookies 获取 当前 页 的 所 有 Cookies | driver.get('http://www.bing.com") 

driverget cookies() 

获取 Bing 首页 的 所 有 Cookies 


add cookie 添加 Cookie driver.add cookie( ('time": '20180919123456']) 

na dE 添加 一 条 name-time, value-20180919123456 的 Cookie 
delete cookie(name) | 删除 一 条 Cookie driver.delete cookie('time") 
delete all cookies 删除 所 有 Cookie driver.delete cookies() 


2.9.6 Selenium 实战 : 抓 取 拉 钓 网 招聘 信息 


下 面 通过 一 个 Selenium 例子 来 演示 使 用 方法 。 


【示例 2-13】 抓 取 拉 勾 网 招聘 信息 
在 拉 勾 网 输入 关键 字 ， 查 找 招聘 信息 ， 主 要 抓 取 的 数据 如 图 2.21 所 示 。 
lagou.py 代码 如 下 : 


01 from selenium import webdriver 


get cookie(name) 获取 当前 页 Cookies 中 的 指 | driverget cookie('time") 
定 name 值 的 Cookie 获取 cookies 中 name-time 的 Cookie 


02 from bs4 import BeautifulSoup 
03 import time 


04 

05 

06 class Lagou: 

07 dep nie Sely: 

08 # 定义 浏览 器 驱动 

09 self.driver = webdriver.Chrome() 


10 self.driver.maximize window () 


11 
12 
13 
14 
i5 
16 
17 
18 


19 
20 
zl 


22 
23 


24 
25 
26 
2i 
28 
29 
30 
sal 
RE 
33 
34 
m 
36 
37] 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
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# 起 始 网 址 


self.url = "https://www.lagou.com/" 


def search(self, keywords): 


# 打开 页 面 

self.driver.get (self.url) 

# 关闭 弹 窗 

self.driver.find element by xpath("//a[8class-'tab focus']"). 


ciick[) 


# 在 搜索 框 中 输入 关键 字 


self. driver: ind element by css selector("fsearch input"). 
send keys (keywords) 

# 单 击 按钮 

self.driver.find element by xpath ("//iInput[eid= 
'search button']").click() 

# 等 待 两 秒 

time.sleep (2) 

+ 获取 页 面 html 

page source - self.driver.page source 

# 关闭 浏览 器 

self.driver.quit () 


return page source 


der ger jobsiserb page source): 

# ER] BeautifulSoup 解析 页 面 

soup = BeautifulSoup(page source, 'lIxml') 

# 获取 所 有 的 招聘 条 目 

hot items — soup.select('.con Hist item") 

for item in hot items: 
d = dict () 
# 获取 工作 岗位 名 称 
d["job'] — xtem.select one(".positron Link > h3").get etext 
# 获取 公司 名 称 


d['company'] = item.select one(".company name > a").get text () 


# 获取 薪资 
d['salary'] - item.select one(".money").get text () 
print (d) 

if | name == " main ^": 


hot - Lagou() 
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51 # 搜索 关键 字 


Ds page source - hot.search('python') 
53 hot.get jobs(page source) 
54 


:深圳 不 限 RE 北京 上 海 广州 杭州 成 都 eR ER Bè EJ 长沙 苏州 FR 
行政 区 : 南山 区 ”福田 区 $R aK AmE PAK 光明 新 区 BAK FUME APEK 


Hbi: 


工作 经 验 : 应 局 毕业 生 。 3 年 及 以 下 ”3-5 年 、 5-10 年 。 10 年 以 上 FE 


人 学历 要 求 : EIE 0 FR 硕士 ”博士 ”不 要 求 
ESRA: ERE 未 融资 天 使 轮 A B O D 轮 及 以 上 上 市 公司 FREMA 
公司 规模 : EM 少 于 15 人 15-50A  50-150A 150-500 人 和 人 500-2000A4 2000 人 以 上 


行业 领域 : escÉEÓ JEEN EFES mgÀ ”企业 服务 ”教育 ”文化 娱乐 ”游戏 020 — Get 


排序 方式 : 最 新 HE: R 了 


python 开 发 工程 师 [ssi] 1 天 前 发布 O 网 新 新 思 加 uu: 
经 验 1-3 年 / 本 科 移动 互联 网 ,企业 服务 / 上 市 公司 / 500-2000 人 


INSIGMA 


TRS, Heke m Ene ERR" 


Python 开发 工程 师 [深圳 湾 ] 13:25 O MINIEYE © 
15k-30k 经 验 1-3 年 / 本科 硬件 , 共 他 / AS /150-500 人 


ZASE S 国际 标准 SE "AJS AAN TR 2" 


图 2.21 拉 勾 网 招聘 信息 


在 进入 拉 勾 网 时 ,会 有 一 个 选择 地 区 的 弹 窗 ,首先 需要 单 击 默认 地 区 以 关闭 弹 窗 (第 18 行 ) 。 
然后 定位 到 输入 框 ， 输 入 关键 字 “python” 第 21 行 ) ， 然 后 单 击 按钮 进行 搜索 (第 23 60 . 之 
后 获取 到 页 面 的 html 数据 , 在 get_job0 方 法 中 使 用 BeautifulSoup 进行 数据 解析 。 提取 到 工作 岗位 、 
公司 、 薪 资 数据 并 进行 输出 。 

运行 结果 : 


('job': 'python 开发 工程 师 '，'company' : ' 网 新 新 思 '，'salary': '9k-10k'} 
('job': 'Python 开发 工程 师 '，'company': 'MINIEYE', 'salary': '15k-30k'} 
('job': 'Python 后 台 开 发 经 理 ' 'company': 'AfterShip', 'salary': '30k-50k'} 
1:7001: "python , "company : Apiler '"salarv": 210K- 20k] 

('job': "python 开发 工程 师 '，'company"' : ' 房 讯 通 ' 'salary': '15k-20k')] 
('job': 'Python 开发 工程 师 '，' company' : ' 联 易 融 linklogis', 'salary': '13k-25k'] 
('job': 'python FR', 'company': “' 海 万 科技 '， 'salary': '10k-18k') 

('job': 'Python 后 台 开 发 工程 师 '，'company' : '*ÉJy', 'salary': '15k-25k'] 
('job': 'pyhtonJfX', 'company': ' 比 获 信 息 '，"'salary': '7k-9k'] 

[('job': 'Python 开发 主管 '，'company": 'J/Morningstar', 'salary': '15k-20k'] 
('job': 'Python 工程 师 ( 运 维 平台 ) ', 'company': 'OPPO', 'salary': '15k-30k') 
('job': 'python 开发 工程 师 '，'company" : “深信 服 科 技 集 团 ' 'salary': '11k-22k'] 
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{"job" : "Python 开发 工程 师 ( 安 全 )'， 'company': ' 极 光 '，'salary': '15k-20k') 
['job': 'python 开发 工程 师 '， 'company': ' 盛 迪 嘉 支付 '，'salary': '15k-20k'] 


2.10” 拒 虫 常用 类 库 5. Scrapy IE rh de 28 


Scrapy 是 一 个 使 用 Python 实现 的 ， 为 了 把 取 网 站 数据 、 提 取 结 构 性 数据 而 编写 的 应 用 框架 ， 
用 途 非常 广泛 。 只 需要 定制 开发 几 个 模块 就 可 以 轻松 地 实现 一 个 肘 虫 , 用 来 抓 取 网 页 内 容 以 及 各 种 
图 片 ， 非 常 方便 。Scrapy 使 用 了 Twisted 异步 网 络 框架 来 处 理 网 络 通信 ， 可 以 加 快 下 载 速 度 ， 并 且 
包含 各 种 中 间 件 接口 ， 可 以 灵活 地 完成 各 种 需求 。 


2.10.1 安装 Scrapy 


Scrapy 基于 Python 语言 ， 理 所 当然 可 以 路 平台 使 用 ， 不 过 相 比 于 Linux，Scrapy 在 Windows 
上 安装 较为 复杂 。 
1. 在 Windows 上 安装 Scrapy 
Scrapy 在 Windows 上 的 安装 步骤 比较 复杂 , 由 于 Serapy 依赖 包 比 较 多 , 而 有 的 包 会 有 非 Python 
依赖 环境 ， 因 此 Windows 平台 下 直接 使 用 pip 安装 大 概率 会 报错 。 需 要 章 循 以 下 步骤 安装 : 
(1) 在 https://www.lfd.uci.edu/~gohlke/pythonlibs/ 下 载 对 应 Python 版 本 与 系统 的 Twisted 包 ， 
使 用 pip 进行 安装 。 
(2) 在 https://www.lfd.uci.edu/-gohlke/pythonlibs/ F X5 M Python 版 本 与 系统 的 Ixml 包 ， 使 


(3) 使 用 pip install scrapy 进行 安装 ,安装 完成 后 ,在 命令 行 输 入 scrapy， 检 测 安 装 是 否 成 功 ， 
奇 示 报错， 则 安装 成 功 : 


C:M»scrapy 


Scrapy 1.5.0 - no active project 


Usage: 


scrapy «command» [options] [args] 


Available commands: 


bench Run quick benchmark test 

fetch Fetch a URL using the Scrapy downloader 

genspider Generate new spider using pre-defined templates 
runspider Run a self-contained spider (without creating a project) 
settings Get settings values 

shell Interactive scraping console 


startproject Create new project 
version Print Scrapy version 
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view Open URL in browser, as seen by Scrapy 
[ more ] More commands available when run from project directory 


Use "scrapy «command» -h" to see more info about a command 


2. 在 Ubuntu 上 安装 Scrapy 


在 Ubuntu 上 安装 Scrapy 非常 简单 ， 直 接 使 用 pip3 install scrapy 进行 安装 即 可 。 


2.10.2 Scrapy 简介 


Scrapy 包含 候 虫 所 有 的 单元 ,并且 提供 了 很 多 有 用 的 中 间 件 ， 可 自由 定制 , 方便 使 用 。Scerapy 


框架 如 图 2.22 所 示 。 
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6 
ller 
pe Downloader 
Pipeline 


222 Scrapy 框架 

下 面 对 框 架 组 件 进行 介绍 。 

e Scrapy Engine (引擎 ): 负责 所 有 组 件 的 数据 传递 ， 触 发 相应 操作 。 

e Scheduler ( 调度 器 ): 负责 接收 引擎 发 送 的 Request 请 求 并 排 入 队列 ， 当 引擎 请 求 Request 时 
再 传递 给 引擎。 

e Downloader (下 载 器 ): 接收 引擎 传递 的 Request 请 求 并 下 载 页 面 数据 ， 然 后 将 其 获取 到 的 
Response 传递 给 引擎 ， 由 引擎 传递 给 Spider 进行 处 理 。 

e Spider (有 爬虫 ): 用 户主 要 编写 的 扑 虫 文件 就 是 此 部 分 文件 ， 它 负责 处 理 引 擎 传递 过 来 的 
Response， 从 中 分 析 提 取 数 据 ， 获 取 的 Item 字段 传递 给 Item Pipeline 处 理 ， 需 跟 进 的 URL 
传递 给 引擎 ， 经 由 引擎 传递 给 Scheduler ( 调度 器 ). 

e Item Pipeline (管道 ) 负责 处 理 从 Spider 中 获取 到 的 Item， 进 行 过 滤 、 存 储 等 操作 。 
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e Downloader Middlewares ( 下载 中 间 件 ) 主要 处 理 Scrapy 引擎 与 下 载 器 之 间 的 请 求 及 响应 。 
e Spider Middlewares (Spider 中 间 件 ): 主要 工作 是 处 理 蜂 蛛 的 响应 输入 和 请 求 输出 。 


了 解 基 本 架构 及 组 件 功能 后 ， 现 在 说 明 工 作 流程 。 


(1) Serapy 引擎 从 Spider 获取 起 始 Request. 

(2) Scrapy 引擎 将 获取 到 的 Request 发 给 调度 中 心 排队 入 列 。 

(3) Scrapy 引擎 从 调度 中 心 请 求 获取 需要 处 理 的 Request。 

(4) Scrapy 引擎 获取 到 需 处 理 的 Request 后， 将 Request 发 给 下 载 器 。 

(5) Request 在 传递 给 下 载 器 的 过 程 中 会 经 过 下 载 器 中 间 件 ， 对 Request 进行 处 理 。 

(60 下载 器 根据 Request 从 Internet 下 载 内 容 ， 封 装 成 Response 对 象 传递 给 Scrapy 引擎。 

(7) 下 载 器 将 Response 传递 给 Scrapy 引 敬 时， 也 会 经 过 下 载 器 中 间 件 ， 对 Response 进行 
处 理 。 

(8) Scrapy 引擎 将 接收 到 的 Response 传递 给 Spider 进行 处 理 。 

(9) Response 传递 给 Spider 的 过 程 中 ， 会 经 过 Spider 中 间 件 ， 对 Response 进行 处 理 。 

(10) Spider 接收 Response， 处 理 完 之 后 会 生成 一 个 包含 需要 继续 爬 取 的 网 址 的 Request 和 一 
个 Item 对 象 组 成 的 Result， 将 Result 传递 给 Scrapy 引擎 。 

(11) Result 传递 给 Scrapy 的 过 程 中 会 再 次 经 过 Spider 中 间 件 进行 相应 的 处 理 。 

(12) Scrapy 引擎 获取 到 Spider 传递 的 Result， 将 其 中 的 Item 发 送 给 Item Pipeline 处 理 ， 将 
其 中 的 Request 发 给 调度 器 排队 入 列 。 

(13) Item Pipeline 会 对 数据 进行 进一步 的 处 理 ， 包 括 整理 、 保 存 等 。 


重复 这 些 步骤 ， 就 形成 了 一 个 完整 的 数据 抓 取 处 理 流 程 。 可 以 看 到 ，Scrapy 框 染 与 前 和 面 介绍 
的 一 般 朴 虫 一 致 ， 也 包含 调度 器 、 下 载 器 等 对 应 的 组 件 。 


2.11 基本 爬虫 实战 : 抓 取 cnBeta 网 站 科技 类 文章 


前 面 我 们 分 析 了 讨 虫 的 基本 原理 ， 了 解 了 一 般 的 朴 虫 框架 与 封装 好 的 Scrapy 框架 的 运行 流程 
之 后 ， 下 面 通 过 一 个 例子 来 加 深 对 Scrapy 爬虫 框架 的 理解 。 


【示例 2-14 】 使 用 通用 爬虫 框架 来 抓 取 cnBeta 网 站 科技 类 文章 

主要 抓 取 的 内 容 有 文章 标题 、 文 章 链 接 、 文 章 发 表 日 期 这 些 数据 ， 将 抓 取 到 的 数据 保存 到 本 
地 文件 中 ， 如 图 2.23 所 示 。 

2.1 节 我 们 分 析 过 疏 虫 的 基本 过 程 ， 知 道 朴 虫 框架 主要 的 组 成 部 分 如 下 。 

e URL 管理 器 : 负责 管理 待 疏 取 的 网 页 URL. 
数据 下 载 器 : 根据 URL 下 载 数据 。 
数据 分 析 器 : 分 析 入 选 下 载 的 数据 。 
数据 保存 器 : 将 筛选 出 的 数据 保存 到 文件 或 数据 库 。 
调度 器 : 负责 整个 系统 的 调度 。 
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了  à& https.//www.cnbeta.com 


H3 VIL £a sh pep 
云 服 务 器 首 年 168 元 CPU 负载 无 限制 Tri BUR 


苹果 连续 12 年 名 列 《 财 富 》“ 全 球 最 受 赞赏 公司 ”榜首 


2019 年 01 月 22 日 22:19 515 AFiS Wm: cnBeta.COM Eg o 条 评论 


司 年 度 排 名 榜首 。 芋 里 公司 连 综 领 先 于 亚 马 钞 ， 伯 克 希 尔 哈 撤 韦 公司 ， 谴 疡 尼 公 司 和 尾巴 
砚 则 | 排名 前 五 。 而 重 果 的 竞争 对 手 微 软 ， 谷 歌 和 三 星 分 别 排名 第 六 ， 第 七 和 第 五 。 


尽管 近期 股价 层 和 还 理 创 ， 但 苹果 公司 依然 连续 第 12 年 薪 登 《 财 盏 》 邓 志 全 球 最 受 鞠 赏 公 e 


访问 : 
东 颗 在线 商店 (中 国 ) 


至 颗 在 每 个 项 目 类 别 中 都 名 列 榜 首 ， 例 如 创新 ， 管 理 质 县 ， 社 会 夷 任 , 企业 资 产 使 用 ， 财 务 稳健 性 ， 产 品 和 服 


务 质 呈 以 及 全 球 竞争 力 。 


排名 由 “ 约 3750 名 高 管 , 分析 师 ， 蕴 本 和 专家 ”决定 ,化 们 选择 了 他 们 号 答 窜 的 10 家 公司 ; 他 们 从 去 年 调查 中 
排名 前 25% 的 公司 组 成 的 名 单 中 选择 ， 加 上 那些 在 其 行业 中 排名 前 20% 的 公司 作为 候补。 任何 人 都 可 以 投 架 给 任何 


行业 的 任何 公司 。 


《财富 》 还 要 球 县 访 者 权 衔 领导 这 些 顶 级 公司 的 珊 笃 的 声 党 ， 信 得 注 臣 的 是 ， 其 中 79 各 受 访 者 称 苹果 首席 执行 


官 芝 姆 库 克 “被 低估 ”，183 名 称 他 “被 珊 估 ”.。 


图 2.23 cnBeta 文章 


下 面 开始 编写 这 5 个 核心 部 分 。 


2.11.1 URL 管理 器 


URL 管理 器 的 主要 功能 是 收集 、 管 理 URL fii, ARTERI URL. CAETH URL. 
程序 urlmanager.py 完整 代码 如 下 : 

01 class URLmanager (object): 

02 def Init  4selt): 

03 + IAS, 8ETERC URL 5; OJER URL 集合 

04 self.new urls - set () 

05 self.old urls - set () 

06 

07 def save new url(self, url): 

08 # 将 单条 URL RAF UPEIERUR & F 

09 if url is not None: 

10 1f url not in self.new urls and url not in selt.old uris: 
11 print ("保存 新 URL: () " . format (ur1)) 

17 self.new urls.add (url) 

23 

14 def save new urls(self, url list): 

15 * 批量 保存 URL 

16 Lor urbL3un url EISE: 

tJ self.save new url(url) 

18 


19 def get new url(self): 
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20 + 取出 一 条 未 爬 取 的 URL, ARFER CERRI URL 中 
a if self.get new url num() > 0: 
22 url = self.new urls.pop() 
23 self.old urls.add (url) 

24 return url 

25 else: 

26 return None 

2i 

28 def get new url num(self): 

29 # B EIRIERKY URL 数量 

30 return len(self.new urls) 

31 

32 def get old url num(self): 

33 # 返回 已 经 爬 取 的 URL 数量 

34 return ften(5setr.old urts) 
【代码 分 析 】 


ra! 


(OD 首先 初始 化 两 个 set0 数 据 类 型 : FER new urls 5 GER old urls。 使 用 set 的 好 处 是 ， 
set 存储 数据 唯一 ， 不 会 保存 重复 的 URL， 从 而 避免 重复 抓 取 数据 。 
(2) 在 保存 新 的 URL 时 ， 需 要 判断 是 否 包含 在 待 息 取 和 集合 中 ， 如 果 不 存在 ， 再 判断 是 否 包 
含 在 已 候 取 集合 中 ， 两 个 集合 中 都 不 包含 此 URL， 才 将 其 存储 至 new urls 中 。 同 时 加 了 一 条 打印 
语句 ， 以 便 在 输出 中 查看 具体 URL 信息 ， 更 好 的 方法 是 使 用 日 志 进 行 处 理 ， 后 续 章节 会 有 介绍 。 
(3) 从 new urls 中 取出 一 条 URL 进行 仆 取 时 ， 同 时 要 将 此 URL 保存 至 old. urls. 
(40 我 们 还 定义 了 两 个 方法 : get new url num()5j get old url num()， 分 别 返 回 new urls 与 
old_urls 中 URL 的 数量 。 


2.11.2 Za MRS 


数据 下 载 器 的 作用 是 根据 提供 的 URL 下 载 网 页 数据 ， 这 里 使 用 requests 包 进 行 下 载 操作 。 


程序 htmldownloader.py 代码 如 下 : 


01 import requests 


02 


class HtmlDownloader: 


def download(self,url): 
+ 判断 URL 是 否 为 空 
if url is None: 
return None 
print (" 开 始 下 载 数 据 ， 网 址 10}" . format (ur1)) 
response - requests.get (url) 
# 如 果 请 求 成 功 ， 则 返回 网 页 数据 ， 否 则 返回 None 


if response.status code == 200: 
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13 print ("下 载 数据 成 功 ") 
14 + 指定 使 用 UTF-8 编码 


ES response.encoding - 'utf-8' 
16 return response.text 
17 return None 


18 

19 

20 if name  -- " main "003A 
2T url — 'http://www.bing.com/' 
22 d = HtmlDownloader() 

23 bing html = d.download (url) 


24 print(bing html) 


下 载 器 功能 很 简单 ， 只 需 使 用 requests 中 的 getO 进 行 网 页 下 载 ， 在 数据 返回 时 则 需要 判断 是 
否 下 载 成 功 ， 即 判断 啊 应 码 是 否 为 200。 
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数据 分 析 器 接收 下 载 到 的 网 页 数据 ， 从 中 提取 到 我 们 需要 的 数据 。 这 里 使 用 BeautifulSoup 进 
行 页 面 解 机、 数据 提取 ， 主 要 提取 内 容 为 文章 标题 、 文 章 链 接 、 文 章 发 布 日 期 。 
打开 文章 页 面 之 后 ， 使 用 浏览 器 开发 者 工具 碍 看 页 面 元 素 ， 如 图 2.24 Wr. 


x àl Elements Console Sources Network Pertormance Memory Applicaton Security Audits 
UIT CIUTT Cuavccu uwpoucc 
" «div class-"w1200" 
¥ ¿div class-"cnbeta-srticle 
Y zheader -— . 


^ (span cless-"scurce"»..C/5pan 
» «span title-"iPie "5.4 /span 
/div 
fheader 
* «div class-"cnbeta-article-body"»..«/div 
* «div class-"cnbeta-article-vote-tags'5.«/div 
section class-"cbv /section 
* «div class-"cleer"»..i/div 
* «div class-"cnbeta-article-comments" id-"COMMENTS"»..« /div 
> «div class-"clear"»..«/div 
* «section class-"Cbv^»..«/section 
* «div class-"cnbeta-article-latest" style="display: none;"»./div 
* «div class-" tbl-feed-container tbl-fteed-frame-DIVIDER " id-"taboola-below-article-thumbnails-n-cbindex-split-num-1" data--4eed-container-num-"2" data-teed- 
nain-container-id-'taboola-below-article-thumbnails-n-cbindex" data-parent-placement-name-"8elow Article Thumbnails-m" data-pub-lang-' en ».«/div 
section class-"cbv"»«/section 
/div 
¥ (div class-"cnbeta-home-side 
* «div class-"cbv ETXxCWwDXie"»5.c / div 
* «style». /style 
* «div id-"upcoming box"».:/div 
b ediv class-"cbv"»..c/div 
div class-"cnbeta-home-hot-comnents none" style-"display: block; /aly 
Y «div id-"relation box' 
¥ «section clasz-"cnbeta-zide-bcox" 
h3 class-"cnbeta-side-blue-title ^4EBE VE /n3 
Y «div Cless-"cnbeta-side-wrapper" 
vxul closs-"list-row 
v <1i 
* «div class-"story-snmall 
a Class-"lazy story-image" hre*-"https://www.cnbeta.com/articles/tecn/$646835.htm" target="_blank" src-"data:lnage/g!f;base64,R91GC.. 
5BAEAAAAALAAAAAABAAEAAAIBRAA7" style-"'background-image:url("https://static.cnbetacdn.com/thumb/mini/article/2019/0513/eec74d339d37f736. jpg"); 
background-repeat:no-repeat;background-position:center center;background-size:cover; /a 


* «ul class-"story-byline"5.«/ul 
idiv 


图 2.24 碍 看 元 素 标签 


查看 页 面 元 素 可 以 看 到 ， 标 题 位 于 <div class="cnbeta-article"><header class="title"><hl> 下 ， 发 
布 日 期 位 于 <div class="cnbeta-article"><header class="title"><div class="meta"> 中 第 一 个 <span> 标 签 
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下 。 对 于 文章 URL 的 提取 ， 通 过 检查 页 面 中 相关 文章 新 闻 模 块 中 的 文章 标题 元 素 信息 ， 可 以 看 到 
页 面 中 科技 类 文章 的 标签 为 <a href=https:/www.cnbeta.com/articles/tech/846835.htm 
target="_blank"> 疑 似 全 新 模块 化 MacPro 曝光 ? 真 假 难 辨 </a> 形 式 ， 所 以 只 需 选 择 所 有 href 属性 中 
包含 “tech” 字 上段 的 a 标签 即 可 ， 再 提取 href 属性 字段 值 。 

数据 分 析 器 htmlparse.py 程序 代码 如 下 : 


01 from bs4 import BeautifulSoup 
02 from datasave import DataSave 
03 import re 


04 import requests 


06 class HtmlParse: 
07 + 主 输出 方法 ， 返 回 提取 的 URL 列表 与 待 保存 的 数据 


08 def parse data(self,page url,data): 

09 print (" 开 始 分 析 提 取 数 据 ") 

10 # 如 果 待 分 析 的 文章 的 URL 或 者 数据 为 空 ， 则 不 做 处 理 
AL if page url is None or data is None: 
12 return 

23 soup = BeautifulSoup(data,'lxml') 

14 # 分 别 调用 get urls()5 get data () 获取 数据 
15 urls - self.get urls(soup) 

16 data = self.get data (page url,soup) 

17 return urls,data 

18 

19 # 提取 科技 类 文章 URL 

20 dct geb uris(settr, soup) - 

21 urls = list() 

22 # 获取 科技 类 文章 地 址 Tag 

23 links = soup.select('a[href*-"/tech/"]"') 
24 for link in links: 

25 * 从 Tag 中 提取 网 址 数据 

26 url - link['href'] 

2n urls.append (url) 

28 return urls 

29 

30 # 提取 文章 数据 

31 def get data(self,page url,soup): 

32 data = (] 

33 # 将 文章 的 地 址 、 标 题 、 发 布 日 期 保存 到 字典 中 

34 # 文章 URL 只 是 使 用 参数 url 

35 data['url'] - page url 

36 + select one 获取 符合 条 件 的 第 一 条 

37 # 获取 文章 标题 

38 tiEle = soup.select one[('.cnbeta-arb:cle > header > nl | 


39 # 获取 发 布 日 期 
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40 release date — soup.select one(' .cnbeta-article > header > 
.meta > span') 

41 # 将 数据 保存 到 一 个 字典 变量 中 

42 data['titie'] = title.get text () 

43 data['release date'] = release date.get text () 

44 print ("文章 url: (0)".format (page url)) 

45 print ("数据 : {0}".format (data)) 

46 return data 

47 

48 

49 if name == " main ": 

50 url = 'https://www.cnbeta.com/articles/tech/811395.htm' 

51 save = DataSave ('D:\\Scrapy\\cnbeta.txt') 

J2 response = requests.get (url) 

53 response.encoding = 'utf-8' 

54 parse = HtmlParse() 

a9 u,d = parse.parse data (url,response.text) 

56 save.save (d) 

51 print (u,d) 

【代码 分 析 】 


(1) 代码 中 定义 两 个 方法 : get urls0 与 get_data()，get_urls0 返 回 一 个 list 类 型 结果 urls, B) 
含 提 取 到 的 所 有 科技 类 文章 URL 数据 ; get data0 返 回 一 个 dict 类 型 结果 data， 包 含 提取 到 的 文章 
数据 。 这 里 使 用 了 BeautifulSoup 中 的 select_one0 方 法 ， 只 获取 符合 条 件 的 第 1 条 数据 。 

(2) 分 析 器 提供 了 一 个 对 外 输出 数据 的 方法 parse data0， 返 回 从 get urls05 get data0 中 提 
取 到 的 urls 与 data。 


2.11.4 数据 保存 器 


数据 保存 器 的 主要 功能 是 保存 从 数据 分 析 器 中 提取 的 数据 。 在 本 例 中 ， 我 们 将 抓 取 到 的 数据 
保存 到 本 地 文件 中 ， 后 面 的 章节 将 介绍 如 何 保 存 至 数据 库 中 。 
程序 datasave.py 代码 如 下 : 


01 import os 
02 class DataSave: 


03 * 指定 数据 保存 的 文件 路 径 


04 def — init  (selt,path): 

05 self.path - path 

06 

07 def save(self,data): 

08 E 判断 文件 路 径 是 否 存在 ， 若 不 存在 ， 则 抛 出 错误 
09 if not os.path.exists (self.path): 

10 raise FileExistsError ("文件 路 径 不 存在 ") 


11 # 将 数据 写 入 文件 中 ， 已 追加 形式 写 入 文件 
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12 with open(self.path,'a') as fp: 

13 print ( "开始 写 入 数据 ") 

14 + 加 上 \n 换行 写 入 数据 

15 fp.write(str(data) -* 'Mn') 

16 fp.close|() 

17 

18 if name == " main ^": 

19 test data —- 'this is a test,Mn save it' 
20 save path = 'C:NNUsersNMgstarNNDesktopNMfile.txt' 
Z1 ds = DataSave(save path) 

22 ds.save(test data) 

【代码 分 析 】 


(D 为 了 能 在 任意 位 置 保 存 数 据 ， 在 初始 化 时 ， 我 们 需要 先 指定 一 个 文件 路 径 ， 在 保存 数据 
的 时 候 ， 先 判断 文件 路 径 是 否 存在 ， 如 果 不 存 在 ， 就 抛 出 异常 。 

(2) 打开 文件 ， 指 定 打 开 模 式 为 a， 即 以 追加 模式 打开 文件 ， 可 以 不 断 地 进行 数据 写 入 ， 因 
为 我 们 是 每 抓 取 一 篇 文章 数据 立即 写 入 文件 ， 如 果 以 w 模式 打开 ， 则 会 履 盖 前 一 次 保存 的 数据 ， 
注意 写 入 的 数据 要 转化 成 str 类 型 。 

(3) 最 后 做 了 一 下 测试 ， 每 一 个 类 都 写 一 个 测试 ， 这 是 一 个 好 的 习惯 ， 读 者 可 以 试 着 在 前 面 
的 urlmanager.py 类 文件 中 写 一 个 测试 。 


Z1 


调度 器 


调度 器 的 作用 是 将 所 有 组 件 关 联 起 来 ， 起 到 管理 数据 流通 的 作用 。 调 度 器 scheduler.py 程序 代 


Rin P: 


01 
02 
01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
TT 
12? 
13 
14 
15 


from datasave import DataSave 
from htmldownloader import HtmlDownloader 
from htmlparse import HtmlParse 


from urlmanager import URLManager 


class Scheduler: 
def init (self; path ropt urt, coummt) : 

# 初始 化 各 个 组 件 
self.url manager = URLManager () 
self.data save = DataSave (path) 
self.html parser = HtmlParse() 
self.downloader = HtmlDownloader() 
self.root url - root url 
self.count - count 


def run spider (self): 


+ 先 添加 一 条 URL ARIER URL 集合 中 
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16 self.url manager.save new url(self.root url) 
17 # 判断 : WRRER URL fitr Foe, JPBXBSURITEBUR] 50 篇 文章 ， 那 么 继续 爬 取 
18 
19 while self.url manager.get new url num() and 
self.url manager.get old url num() 20 « self.count: 
"d Ery: 
22 + 获取 一 条 未 爬 取 URL 
Za url = self.url manager.get new uril () 
24 # 下 载 数据 
25 response = self.downloader.download (url) 
26 # 分 析 数 据 ， 返 回 URL 与 文章 相关 数据 
2i new urls; data = self.html parser.parse data (url, response) 
28 # 将 获取 到 的 URL RF RRIER URL 集合 中 
29 self.url manager.save new urls(new urls) 
30 # 保存 数据 到 本 地 文件 
3T self.data save.save(data) 
32 print (" 已 经 抓 取 了 {0} 篇 文章 " . format (len 
(self.url manager.old urls))) 
33 except Exception as e: 
34 print (" 本 篇 文章 抓 取 停 止 , (0) " . format (e) ) 
35 
36 
37 if name == " main ^": 
38 root url - "https://www.cnbeta.com/articles/tech/811395.htm" 
39 save url - "D:NMScrapyNNchap2NM2-1NNCnbeta.txt" 
40 Spider - Scheduler(save url,root url,20) 
41 Spider.run spider() 
【代码 分 析 】 


CD 首先 初始 化 各 个 组 件 ， 其 中 数据 存储 器 DataSave 震 要 指定 数据 保存 路 径 ， 即 初始 化 方法 
int 0 的 path 参数 。 另 外 ， 我 们 还 需要 指定 起 始 URL 和 需要 抓 取 的 文章 数据 ， 分 别 对 应 参数 
root url 与 count. 

(2) ERZ 1171 1X 7J run. spider0。 首 先 要 给 URL 管理 器 传 入 起 始 URL, 之 后 通过 一 个 while 
循环 判断 是 否 有 新 的 URL. 及 已 抓 取 的 URL 数量 ， 来 决定 是 否 继续 进行 抓 取 。 

(3) 使 用 try...except... 结 构 来 避免 在 抓 取 过 程 中 出 错 而 中 断 流程 。 


运行 候 虫 ， 结 果 如 图 225 所 示 。 
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开 地 下载 独 据 ， 网 址 http: /7 


Mzi-tsE EE - FATE i P297 d ' 'release_date':; !2019 年 91 月 61 日 CET TRO 
保存 新 URL : 
保存 痢 URL ; 
保存 闭 URL ; 
保存 新 URL : 


"Purism 推 出 包 言 4K 吕 示 屏 的 Librem 15 Linux 笔 记 本 电脑 ' 'release date': '2819 年 1 月 15 日 
X TTRHURL : 


保存 新 URL : 


E: 


'FB 工 程 师 光 脚 进餐 厅 引 内 部 文化 种 实 SAA: Dn, 'release date': '2019401H26H 10:25') 


finished with exit code © 


图 2.2$ 运行 结果 


保存 的 数据 如 图 2.26 所 示 。 


E cnbeta.txt - 记事 本 


XE) ERE) AAO EEV RH) 

(url: 'https://www.cnbeta.com/articles/tech/812819.htm', 'title': iOS 12.2 Beta 1 有 哪些 显著 的 功能 变化 ? ', 'release_date': '2019 年 01 月 26 日 18:40'} 

('url': 'https;//www.cnbeta.com/articles/tech/81051 1.htm', 'title': ' 华 为 Mate 20 X 登 陆 从 污 市 场 : 上 干 人 排队 抢购 ', 'release_date'; '2019:F01H208 16:34 

'url': "https;//www.cnbeta.com/articles/tech/805817.htm', ‘title: '£&7y&75fEtHERHE9205S Hi 55x ARMBRASSE', "release date': '2019401A078 10:32") 
' "https://www.cnbeta.com/articles/tech/809223.htm', 'title': ' 快 播 王 欣 新 作 医 名 社 父 APP 马 桶 MT 详细 体验 `，release date": '2019 年 01 月 16 日 16:387 
';'https;//www.cnbeta.com/articles/tech/803989.htm', 'title': RENS RARA: EAF, release_date': '2019 年 01 月 019 21:53'} 
'https//www.cnbeta.com/articles/tech/809295.htm', 'title': 深度 择 作 系统 v15.9 发 布 ，release date': '2019 年 01 月 16 日 22:00'} 
': "https://www.cnbeta.com/articles/tech/797295.htm', title: 3t 5552: BI &UE zug 怀孕 五 个 月 身材 略 吕 丰满 release date: '2018 年 12 月 11 昌 16:14'} 
:'https//www.cnbeta.com/articles/tech/802505.htm', 'title'; 百度 网 盘 须 登录 指定 甘 接 才能 守住 2T 宝 间 ? 官方 回应 "release_date': '2018 年 12 月 279 07:16) 
': 'https://www.cnbeta.com/articles/tech/79538 1 htm, 'title': 479[ Aves PE HEB E: 系 转机 被 扣留 华为 遵守 各 国法 律 法 规 ', 'release_date": '2018 年 12 月 06 日 07:49'} 
: 'https://www.cnbeta.com/articles/tech/810261.htm', 'title': ' 网 友 实 拍 两 辆 高 铁 “ 诡 车 ”走红 : 复兴 号 高 了 和 和 谐 号 '，'release_ date': '2019 年 01 月 19 日 16:37'} 
''https;//www.cnbeta.com/articles/tech/810083.htm', 'title': '£&73Mate 20 Pro DxOMark 评 分 出 炉 : 109 分 与 P20 Pro 并 列 第 一 ', 'release date': "2019 年 01 月 189 20:19'} 
t "https://www.cnbeta.comj/articles/tech/812351.htmr, title: ' 荣 5G 手 机 即将 登场 : 或 搭载 巴 龙 5000'\, 'release date': '2019£E01H25E 09:47") 
: 'http://www.cnbeta.com/articles/tech/805817.htm', 'title': "华为 官 布 推 出 钱 觅 920 芯 片 与 泰山 ARM 服 务 器 ', 'release_date"'; '2019 年 01 月 07 日 10:32'} 
': https;//www.cnbeta.com/articles/tech/810395.htmr, ‘title: 苹果 美国 区 言 网 浅 合 iPhone SE 库存 32G/128G 仅 $249/$299", 'release_date": '2019 年 01 月 20 日 09:39" 


' 'http://www.cnbeta.com/articles/tech/805623.htm', 'title': "海底 捞 门 店 出 现 不 雅 视频 ES Bl", "release date':'2019£F01H06EH 17:06) 

: 'https://www.cnbeta.com/articles/tech/809751.htm', 'title'; "中国 在 月 球 城 的 嫩 芽 已 经 “ 死 了 ”? 这 次 外 媒 没 乱 说 ', 'release_date'; '2019 年 01 月 18 日 07:44} 

': "https://www.cnbeta.com/articles/tech/807973.htm', 'title': [评论 ] 芝 里 低 头 了 (BEVRAE AR (3-58 T ER, release date": '20192601512E 16:057) 
L'http://www.cnbeta.com/articles/tech/803949.htm', title" 'retsgsk f: 微 信 7.0 降 到 旧版 方法 一 览 '，release_date': '2019:F01 HO1H 16:07') 

': 'http://www.cnbeta.com/articles/tech/808491.htm', "title": "Purism 推 出 包 言 4K 局 示 屏 的 Librem 15 Linux 笔 记 本 电脑 ,release date': '2019 年 01 月 15 日 00:25'} 
“httpsVAwww.cnbetacomyarticles/tech/812701.htm'，'title'FB 工 程 师 光 驳 进餐 厅 引 内 部 这 化 冲突 eje A BY RERE, 'release date: '2019 年 01 月 26 日 10:25 } 


第 1 行 , 第 1 列 


图 2.26 保存 结果 


Scrapy fp $175 Shell 


第 2 章 介 绍 了 Scrapy 的 基本 架构 及 原理 ， 本 章 开 始 介绍 Scrapy 的 基本 使 用 方法 以 及 常用 的 命 
令 。Scrapy 是 通过 一 个 命令 行 工 具 Shell 来 控制 相关 动作 行为 的 ， 通 过 Shell 工具 可 以 方便 快捷 地 
调试 代码 。 因 此 ， 掌 握 Scrapy 命令 行 与 Shell 可 以 使 Scrapy 的 开发 变 得 事半功倍 。 

本 章 的 主要 知识 点 有 : 

e Scrapy 的 基本 命令 

e Shell 的 基本 用 法 


3.1 Scrapy 命令 行 介 绍 


Scrapy 提供 了 两 种 类 型 的 命令 : 一 种 必须 在 Scrapy 项 目 中 运行 ， 称 为 项 目 命 令 ; 男 一 种 则 不 
需要 在 Scrapy 项 目 中 运行 ， 称 为 全 局 命令 。 全 局 命令 有 7 个， 分 别 说 明 如 下 。 
e startproject: 创建 项 目 。 
e settings: 查看 设置 信息 。 
e runspider: 运行 爬虫 。 
shell: 打开 Shell 调试 。 
e fetch: 下 载 网 页 信息 。 
e view: 使 用 浏览 器 打开 指定 网 址 。 
e versio 查看 版 本 号 。 
项 目 命令 有 7 个， 分别 说 明 如 下 。 
e crawl: 运行 指定 的 疏 虫 。 
e check: HER RRA, 
e list 列 出 所 有 的 爬虫 。 
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e edit: 4&8] £A 8328 HE2S 2 HEU S CE, 
e parse; 使 用 爬虫 抓 取 指 定 的 URL. 

e genspider: JER X. 

e bench: 快速 的 性 能 测试 。 


Scrapy 的 命令 涉及 项 目 创建 、 爬 虫 创 建 、 运 行 等 具体 事务 。 在 命令 行 工 具 中 输入 scrapy 将 会 
列 出 这 些 命令 ， 如 图 3.1 所 示 。 


ma Lem 2 m 


图 3.1 Scrapy 命令 


每 个 命令 都 可 以 通过 如 图 3.2 所 示 的 方式 查看 具体 用 法 与 参数 。 


图 3.2 Scrapy 命令 的 帮助 
本 节 将 讲解 第 用 命令 的 用 法 与 功能 。 
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3.1.1 使 用 startproject 创建 项 目 


最 先 要 掌握 的 命令 就 是 创建 Scrapy 项 目的 命令 ， 格 式 为 : 

scrapy startproject «project name» [project dir] 

这 条 命令 将 会 在 project dir 目录 下 创建 一 个 项 目 ， 如 果 没 有 指定 project dir， 创建 的 目录 就 会 
与 项 目 同名 ， 效 果 如 图 3.3 所 示 。 


图 3.3 创建 假 虫 项 目 
创建 项 目 之 后 ， 碍 看 项 目 目录 ， 如 下 所 示 : 


scrapytest 
| —scrapy.cfg 
L—scrapytest 
L—items.py 
| —niddlewares.py 
| —pipelines.py 
| —settings.py 
| ES Uaméb oc py 
spiders 

L— init  .py 


其 中 ，scrapy.cfg 为 全 局 配置 文件 ， 包 含 定 义 项 目 设置 的 Python 模块， 如 下 : 


[settings] 
default = myproject.settings 


scrapytest 子 文件 夹 中 : 

e item.py 中 定义 Scrapy 的 输出 内 容 。 

e middlewares.py 中 定义 各 种 中 间 件 ， 主 要 为 了 处 理 各 种 Request/Response. 

e pipelines.py 中 定义 管道 ， 功 能 为 如 何 处 理 抓 取 到 的 数据 。 

e settingpy 为 项 目 配置 文件 ， 所 有 的 管道 、 中 间 件 等 其 他 参数 必须 在 setting.py 中 激活 才能 生效 。 
e spiders 子 文件 夹 中 存放 所 有 的 爬虫 文件 。 


«Nm prs 
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使 用 genspider ÎI EEH 


创建 项 目 框 架 之 后 ， 开 始 创建 仆 虫 。 该 命令 需要 进入 scrapytest 目录 执行 ， 命 令 格式 为 : 


scrapy genspider [-t template] «name» <domain> 


其 中 -t a EIEH IER, «name-7j/JÉ A PR, «domain-Hl FÆ allowed domains 
和 start urls Spider 属性 值 。 
genspider 可 以 使 用 的 模板 有 4 个 : 


basic 
crawl 
csvfeed 
xmlfeed 


basic 为 基本 爬虫 模板 ，crawl 模板 生成 继承 CrawlSpider 爬虫 类 的 Spider, csvfeed, xmlfeed 分 
别 生 成 继承 CSVFeedSpider 与 XMLFeedSpider 爬虫 类 的 Spider， 后 面 章 节 会 讲 到 除 basic 以 外 的 其 
余 3 种 通用 讨 虫 。 本 小 节 使 用 crawl REENER. 

【示例 3-1] Scrapy JEEE 


scrapy genspider -t crawl test test .Com 


genspider 命令 如 网 3.4 所 示 。 


3.4 genspider 命令 


此 时 会 在 spider 目录 下 生成 一 个 名 为 test.py HIER SC F, NRK: 


01 
02 
03 
04 
05 
06 
07 
08 
09 


ER ala HERE Ho s- 
import scrapy 
from scrapy.linkextractors import LinkExtractor 


from scrapy.spiders import CrawlSpider, Rule 


class TestSpider (CrawlSpider): 
name = 'test' 


allowed domains - ['test.com'] 
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10 GEnrt urls TIED /test com | 
11 
22 rules - ( 
13 Rule(LinkExtractor(allow-r'Items/'), callback-'parse item', 
follow-True), 
14 ) 
15 
16 det parse iLtem[selt, response): 
17 i = {} 
18 #i["domain id'] = response.xpath 
("//input [@id="sid"]/@value') .extract () 
19 #i['name'] = response.xpath ('//div[@id="name"]').extract () 
20 di['description'] = response.xpath 


('//div[QGid-"description"]').extract() 


"a return i 


可 以 看 到 ，name 等 属性 已 经 生成 ，Rule (后 面 章节 将 会 对 Rule 做 详细 介绍 ) 也 生成 了 一 条 ， 
回调 方法 为 parse item， 可 以 根据 需要 进行 修改 。 


3.1.3 ”使 用 crawl zia 


ci RC rh FI i i F : 
>>> scrapy crawl «spidername» 


启动 Spider 开始 任务 ， 如 图 3.5 所 示 。 


1 TATA. A 
CIAdWler)] LINT U 


jytest', 'NEWSPIDER MODULE' : 
Y : True, 'SPIDER MODULES’ : 


middleware] 


3.5 使 用 crawl 命令 启动 爬虫 


3.1.4 使 用 list 查看 爬虫 


使 用 方法 : 


>>> scrapy list 
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list 命令 很 简单 ， 列 出 项 目的 所 有 Spider, "n 3.6 所 示 。 


3.6 list 命令 


3.1.5 ”使 用 fetch 获取 数据 


fetch 使 用 方法 : 

>>> scrapy fetch [options] «url» 

该 命令 使 用 Scrapy 默认 的 下 载 器 下 载 指 定 的 URL 页 面 。 注 意 ， 如 果 在 项 目 中 运行 此 命令 ， 会 
目 动 使 用 项 目 中 Spider 的 相关 设置 ， 而 在 项 目 外 运行 则 使 用 默认 的 设置 。 如 图 3.7 所 示 ， 上 半 部 分 
为 在 项 目 中 运行 命令 ， 下 半 部 分 为 在 项 目 外 运行 命令 。 


3.7 fetch 命令 


HAR, fetch 还 有 一 些 参 数 可 以 使 用 ， 分 别 说 明 如 下 。 

e -spider-SPIDER: 使 用 指定 的 Spider 代替 默认 值 。 

e headers: 打印 返回 Response 的 headers， 默 认 打 印 Response 的 body 部 分 。 
e --no-edirect: 取消 重 定 向 抓 取 ， 默 认 抓 取 重 定 向 的 URL 数据 。 

e --nolog: 取消 日 志 的 打印 ， 直 接 显 示 数 据 。 
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3.1.6 ”使 用 runspider 运行 爬虫 


runspider 使 用 方法 : 
>>> scrapy runspider [options] spider.py 
该 命令 可 以 在 未 创建 项 目 时 直接 运行 Spider 爬虫 文件 。 它 比较 有 用 的 参数 是 --outputFEFILE 或 
者 -oFILE， 将 抓 取 结果 保存 到 FILE 文件 中 。 
说 明 : runspider 命令 适用 于 人 简单 快速 的 爬虫 任务 。 
【示例 3-2] runspider 运行 爬虫 文件 testspider.py 


01 import scrapy 
02 
03 class TestSpider (scrapy.Spider): 


04 name — 'testspier' 

05 start urls = ['http://www.bing.com'] 

06 

07 def parse(self, response): 

08 title — TESpOnSe -CSS TEILE IO: CEL J EALrace FirSEUD 
09 return(í('title':title]) 


运行 命令 ， 结 果 如 图 3.8 Hr. 


3.8 runspider 命令 
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3.1.7 3833 view 使 用 浏览 器 打开 URL 


view 使 用 方法 : 
>>> scrapy view «url» [options] 


该 命令 下 载 一 个 页 面 并 使 用 默认 浏览 器 打开 。 某 些 情况 下 ，Scrapy 下 载 的 页 面 与 我 们 使 用 浏 
览 器 看 到 的 页 面 并 不 一 致 ， 这 时 可 以 使 用 view 命令 碍 看 对 比 。 


3.1.8 使 用 parse MAER 


parse 使 用 方法 : 
>>> scrapy parse [options] http://example.com/ 


parse Æ — AIEA HH ag m. XX üg m es FAM AUG dH. up Ub S RE Spider. 
Pipeline (管道 ) 、 回 调 函 数 等 一 系列 爬虫 参数 ， 和 常用 参数 具体 如 下 。 

e -spider-SPIDER: 使 用 特定 的 爬虫 处 理 。 

e -aNAME-VALUE: HERR. 

€ --callback or-c: 处 理 Response $7113 Zi, 

e --metaor-m: 7j Request 传 的 参数 ， 例 如 - meta-' ("foo" : "bar"?', 

e pipelines: 使 用 管道 处 理 Item. 

e  --Iules or -T: 使 用 CrawlSpider 时 指定 的 rules, 

e --noitems; 不 显示 恨 取 的 Item, 

e -nolinks; 不 显示 解析 的 链接 。 


3.2 Scrapy Shell 命令 行 


3.1 节 介绍 的 都 是 些 基本 命令 。Scrapy 中 最 常用 的 命令 就 是 Shel 命令 了 。 在 这 里 单独 使 用 一 
节 来 介绍 。 


3.2.1 Scrapy Shell 的 用 法 


Scrapy Shell 是 一 个 交互 终端 ， 可 以 在 未 启动 Spider 的 情况 下 调试 代码 。 其 本 意 是 用 来 测试 提 
取 数 据 的 代码 ， 不 过 也 可 以 将 其 作为 正常 的 Python 终端 ， 在 上 面 测 试 运行 任何 Python 代码 。 

该 终端 用 来 测试 XPath 或 CSS 表达 式 ， 测 试 其 能 否 从 抓 取 的 网 页 中 正确 地 提取 数据 。 因 此 ， 
无 须 启动 仆 虫 ， 我 们 可 以 边 写 代 码 边 测试 ， 无 须 每 次 修改 代码 之 后 测试 整个 候 虫 来 查看 抓 取 结 果 。 
一 旦 掌握 了 Scrapy Shell， 我 们 会 发 现 开发 和 调试 代码 将 无 比 人 简单 。 
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Shell 的 启动 命令 为 : 


>>> scrapy shell «url» 
url AFERE. 2325, Shell 也 可 以 打开 本 地 文件 ， 以 下 几 种 格式 都 是 文 持 的 : 


>>> scrapy view «url» [options] 

# UNIX- 格 式 

scrapy shell ./path/to/file.html 

scrapy shell ../other/path/to/file.html 
scrapy shell /absolute/path/to/file.html 

# 文件 URI 

scrapy shell file:///D:/webfiles/bing.html 
scrapy shell D:\webfiles\bing.html 


读 取 本 地 网 址 的 时 候 需 要 加 上 路 径 ./， 相 对 路 径 使 用 ../。 直 接 打开 文件 将 会 报错 : 


scrapy shell index.html. 


与 普通 Python 控制 台 相 比 ，Scrapy Shell 多 了 一 些 Scrapy 和 候 虫 中 特有 的 功能 ， 分 别 说 明 如 下 。 

e shelpO: 打印 出 所 有 可 使 用 的 属性 与 命令 。 

e fetch(url[, redirect=Tme]): MAZ à URL 获取 一 个 新 的 Response， 同 时 更 新 所 有 相关 的 项 目 
数据 。 当 指定 redirect-False 时 ， 不 会 获取 重 定向 的 数据 。 
fetch(request): 根据 给 定 的 Request 获取 一 个 新 的 Response， 同 时 更 新 所 有 相关 的 项 目 数据 。 
view(response): 使 用 指定 的 Response 打开 浏览 器 ,方便 检查 抓 取 数 据 。 当 使 用 这 条 命令 的 时 
候 ， 为 使 外 部 的 图 像 或 者 表格 等 正确 显示 ， 会 自动 为 Response 中 添加 一 个 <base> 标 签 ， 指 定 
基准 URL， 也 就 是 Response 对 应 的 URL. 

使 用 Scrapy Shell 下 载 页 面 时 ， 会 自动 生成 一 些 对 象 ， 分 别 说 明 如 下 。 

e crawler: 当前 使 用 的 crawler, 

e spider: 处 理 当 前 页 面 使 用 的 spider， 当 没有 指定 spider 时 ， 则 是 一 个 Spider 对 象 。 
request: 获取 最 新 页 面 所 对 应 的 Request. 
response: 获取 最 新 页 面 所 对 应 的 Response。 

e settings: 当前 的 Scrapy 配置 信息 。 


3.22. ”实战 : 解析 名 人 名 言 网 站 


下 面 通过 解析 名 人 名 言 网 站 (http:/quotes.toscrape.comy ) 来 学 习 Scrapy Shell 的 用 法 ， 其 中 页 
和 面 内 容 如 图 3.9 所 示 。 
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Quotes to Scrape 


The world as we have created it is a process of our thinking. It cannot be changed 


Top Ten tags 
wrthout changing our thinking. 


by Albert Einstein (about love 


inspirational 


Jt is our choices, Harry, that show what we truly are, far more than our abilities.” 
by J.K Rowling (about) 


There are only two ways fo live your life. One is as though nothing is a miracle, 
The other is as though everything isast 


by Albert Einstein (about. 


Tags: (EET) (9 O CD CD 


The person, be it gentleman or lady, who has not pleasure in a good novel must 
be intolerably stupid.” 


by Jane Austen (about) 


Tags: LTEM cn ma 


Imperfection is beauty, madness is genius and it's better to be absolutely 


39 网 页 内 容 
(1) 启动 Scrapy Shell， 加 上 --nolog 不 打印 日 志 ， 如 图 3.10 所 示 。 


E 命令 得 示 符 - scrapy shellhttp:;//quotes.toscrape.com/ --nolog 


apy module {contains scrapy. Request, scrapy. Selec 


crawler.Crawler object at 0x0000027B 


5FFBAC 1 


ttings obje 


efault 


3.10 -nolog 命令 输出 


可 以 看 到 ，Scrapy Shell 使 用 Scrapy Downloader 根据 URL 下 载 内 容 ， 并 打印 前 面 介 绍 过 的 可 
用 对 象 与 方法 。 


(2) 下 载 页 面 之 后 ， 可 以 对 下 载 内 容 进行 检查 、 操 作 。 
获取 页 面 标 题 : 


人 
'Quotes to Scrape' 


>>> response.css('title::text').extract first() 
'Quotes to Scrape' 


88 | Scrapy WEEER 


重新 下 载 页 面 : 


»»» fetch("http://www.bing.com") 

2019-02-28 16:01:46 [scrapy.downloadermiddlewares.redirect] DEBUG: 
Redirecting (301) to «GET http://cn.bing.com/» from «GET http://www.bing.com» 

2019-02-28 16:01:47 [scrapy.core.engine] DEBUG: Crawled (200) «GET 
http://cn.bing.com/» (referer: None) 

>>> response.:xpath("//title/text()"}. extract first/() 


' 微 软 Bing 搜索 - 国内 版 ' 
修改 请 求 参数 ， 比 如 将 默认 的 GET 方法 改 为 POST， 然 后 使 用 fetch 直接 请 求 Request: 


>>> request = request.replace (method-'post') 

>>> fetch (request) 

2019-02-28 16:03:58 [scrapy.downloadermiddlewares.redirect] DEBUG: 
Redirecting (301) to «POST http://cn.bing.com/» from «POST http: //www.bing.com» 

2019-02-28 16:03:58 [scrapy.core.engine] DEBUG: Crawled (200) «POST 
http://cn.bing.com/» (referer: None) 

打印 Response 中 headers 信息 : 

»»»from pprint import pprint 

>>>pprint í(response.headers) 

(b'Cache-Control': [b'private, max-age-0'], 

b'Content-Type': [b'text/html1; charset-utf-8'], 

b'Date': [b'Thu, 28 Feb 2019 08:03:59 GMT'], 

b'P3P': [b'CP-"NON UNI COM NAV STA LOC CURa DEVa PSAa PSDa OUR IND"'], 

b'Vary': [b'Accept-Encoding'], 

b'X-Msedge-Ref': [b'Ref A: Bl6BBC6E7C214BOF918F44CEOGDEOC97 Ref B: 


BJlEDGEO3' 
b'ü6 HcFf C: 2019-02-28T08:04:002'1] 


Scrapy WHR 


第 3 章 介 绍 了 Scrapy 命令 行 基本 命令 与 Shell 模式 的 基本 用 法 ， 本 章 将 正式 开始 爬虫 的 讲解 。 
首先 介绍 Spider 的 常用 基本 属性 ， 再 介绍 Spider 中 常用 的 方法 ， 紧 接着 对 提取 数据 的 选择 器 进行 
介绍 ， 读 者 可 参照 示例 进行 理解 。 

本 章 知识 点 : 

e Scrapy 基本 类 组 件 说 明 

e Scrapy 中 的 Selector 选择 器 

e Scrapy 通用 爬虫 介绍 与 使 用 


4.1 mH 


Scrapy 主要 通过 Spider XK S: EUJIÉ HR AHASJIBEs OE G2K UE. Spider XE X. f Egg 2x: 
些 网 站 的 规则 ， 包 括 爬 取 数 据 与 提取 数据 。 
Spider 循环 爬 取 步 骤 如 下 : 


CX 300 通过 start requests0 以 start urls 中 的 URL 初始 化 Request， 下 载 完毕 后 返回 Response, 
作为 参数 传 给 回调 函数 parse。 

人 02 使 用 parse 函数 分 析 Response， 可 以 返回 Item 对 象 、dict、Request 或 一 个 包含 三 者 的 
可 迭代 容器 。 其 中 ，Request 可 以 经 过 Scrapy 继续 下 载 内 容 ， 调 用 设置 的 回调 函数 。 

C€X103 在 parse 函数 内 ， 使 用 Selector 分 析 Response， 提 取 相 应 数据 。 


4.1.1 scrapy.Spider J[E rh 2& zk 3 


编写 的 爬虫 Spider 是 通过 继承 scrapy.Spider 类 来 实现 的 。Spider 类 是 最 简单 的 爬虫 类 。 每 个 
其 他 的 Spider 必须 继承 自 该 类 (包括 Scrapy 自 带 的 其 他 Spider 以 及 目 定 义 编写 的 Spider? 。Spider 
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类 没有 提供 什么 特殊 的 功能 ， 仅 仅 提供 了 start requests. 的 默认 实现 ， 读 取 并 请 求 Spider 属性 中 
的 start urls， 并 根据 返回 的 结果 (Resulting Responses). 调用 Spider 的 parse 方法 。 

Spider 类 常用 的 属性 如 下 。 

e name 

对 一 个 Spider 来 说 ,name 属性 是 必须 且 唯 一 的 , 其 定义 了 Spider 的 名 字 , 而 Scrapy 通过 Spider 
的 名 字 来 定位 并 且 初 始 化 Spider。 

e allowed domains 

该 属性 可 选 ， 其 包含 允许 Spider Ef A vide. H HF OffsiteMiddleWare 启用 时 ， 将 不 
会 跟 进 不 在 列表 中 的 域名 。 

e start urls 

start urls 是 一 个 URL 列表 。 当 没有 指定 特定 URL 时 , Spider 将 从 该 列表 中 开始 获取 页 面 数据 ， 
后 续 的 URL 将 从 获取 的 数据 中 提取 。 

€ custom settings 

该 属性 可 选 ， 是 一 个 dict. 74 Spider 启动 时 ， 会 履 盖 项 目的 设置 ， 由 于 设置 必须 在 初始 化 前 被 
更 新 ， 因 此 必须 设 定 为 class 属性 。 


4.1.2 start requests() 方 法 


先 看 start requests0 第 用 的 方法 定义 : 


QL der start ceguests (selt}: 


02 urls = 
["http://www.testl.com/","http://www.test2.com/","http://www.test3.com/"] 

03 Far gri xn urts: 

04 yield scrapy.Request(url-url, callback-self.parse) 


在 息 虫 启动 时 ，Scrapy 会 调用 start requests()77 7X, M urls (第 02 行 ) 表 中 依次 获取 url, 7j 
此 url ÆA Request (第 04 行 ) ， 然 后 调用 回调 方法 parse (第 04 行 ) 处 理 生成 的 Request。 由 于 此 
方法 只 会 调用 一 次 ， 因 此 可 以 将 此 方法 写成 一 个 生成 器 。 

start requests0 默 认 返 回 最 普通 的 Request， 在 使 用 时 可 以 重 写 此 方法 以 满足 我 们 的 需求 ， 比 如 
在 爬虫 启动 时 登录 某 个 网 站 可 以 使 用 FormRequest: 


Bl cdBF SESFE TEqUeSESAISe TET - 


02 return [scrapy.FormRequest ("http://www.example.com/login", 
03 formdata-[('user': 'john', 'pass': 'secret'], 
04 callback-self.login)] 


FormRequest 的 具体 使 用 方法 在 后 面 章节 会 有 详细 介绍 。 
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4.1.3 parse(response) 方 法 


parse(0) 方 法 基本 写法 : 

01 def parse(self, response): 

02 for media in response.css("li.media"): 

03 yield( 

04 "Eitle"? media.css("h3.p-E:t a::text"].extract first(), 

05 "publish-data": media.css("p.p-meta 
Span::text").extract first{), 


06 ] 


parse(response)z& Scrapy 的 默认 回调 方法 。 也 就 是 说 ,在 生成 的 Request 没有 指定 回调 方法 时 ， 
默认 调用 parse0 方 法 。 

parse() 方 法 主要 负责 处 理 Response， 返 回 抓 取 的 数据 ， 或 者 需要 跟 进 的 URL。 不 只 是 parse() 
方法 ， 其 他 所 有 Request 的 回调 方法 都 必须 实现 这 些 功能 。 

此 方法 以 及 任何 其 他 Request 回调 方法 必须 返回 可 和 迭代 的 Request, dicts 或 Item 对 象 。 


4.1.4 


Selector 选择 器 


在 爬 取 网 页 时 ， 最 常 做 的 任务 就 是 从 网 页 内 容 中 提取 数据 。Scrapy 通过 实现 一 套 构建 于 xml 
库 上 名 为 选择 器 (Selector) 的 机 制 来 提取 数据 , 主要 通过 特定 的 Xpath 或 者 CSS 表达 式 来 选择 HIML 
文件 中 的 某 个 指定 部 分 。 

Selector 常用 的 方法 主要 有 4 个， 分 别 说 明 如 下 。 


e xpath): 传 入 Xpath 表达 式 ， 返 回 表达 式 对 应 节点 的 选择 器 列表 。 
e css): 传 入 CSS 表达 式 ， 返 回 表达 式 对 应 节点 的 选择 器 列表 。 

e extract): 以 列表 形式 返回 被 选择 元 素 的 Unicode 字符 串 。 

e re): 返回 通过 正则 表达 式 提取 的 Unicode 字符 串 列表 。 

下 面 通 过 示例 进行 讲解 。 

测试 页 面 结构 如 下 : 

01 «html» 

02 «head» 

03 «title»Test web sitec/title» 

04 </head> 

05 «body» 

06 «p»linel«c/p» 

07 «div id-'images'» 

08 «a href-'/img/l' class-'image'»name:image 1 «br /> 


«img src-'imagel.jpg' /»«/a» 
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09 «a href-'/img/2' class-'image'»name:image 2 «br /» 

«img src-'image2.jpg' /»«/a» 
10 «a href-'/img/3' class-'image'»name:image 3 «br /» 

«img src-'image3.jpg' /»«/a» 
11 «a href-'/img/4' class-'image'»name:image 4 «br /» 

«img src-'image4.jpg' /»«/a» 
12 «p»line2«/p» 
13 «/div» 
14 «/body» 
I5 c/htmri» 


将 其 保存 为 example.html, f£ Shell 终端 中 打开 此 文件 : 


scrapy shell D:\Scrapy\example.html 


打开 之 后 ， 就 获得 了 一 个 response 变量 ， 并 且 在 response.selector 属性 上 附加 了 一 个 选择 器 。 
下 面 对 选 择 器 的 使 用 进行 介绍 。 
使 用 xpath 方法 获取 title 节点 数据 : 


01 >>> response.xpath('//title/text()') 
02 [<Selector (text) xpath-//title/text()»] 


3 个 > 号 表示 在 Shell 模式 中 执行 此 命令 ， 紧 接着 第 02 行为 输出 结果 。 
使 用 ess 方法 获取 title 节点 数据 : 


01 >>> response.css('title') 
02 [«Selector (text) xpath-//title/text()»] 


注意 ， 通 过 .xpath0 与 .css0 方 法 提取 出 来 的 都 是 类 SelectorList 实例 的 列表 ， 我 们 可 以 通过 
extract0 方 法 提取 数据 ， 获 取 的 结果 是 一 个 列表 : 


01 >>> response.css('title::text').extract () 
02 ['Test web site'] 


使 用 xpath 方法 获取 4 个 image 节点 数据 : 


01 >>> response.xpath('//a[8class-"image"]').extract () 

02 ['«a href='/img/1' class-'image'» name:image 1 «br /> 
«img src-'imagel.jpg' /»«/a»', '«a href-'/img/2' class-'image'» 
name:image 2 «br /»«img src-'image2.jpg' /»«/a»', '«a href-'/img/3' 
Class-'image'» name:image 3 «br /»«img src-'image3.jpg' /»«/a»', '«a 
href-'/img/4' class-'image'» name: image 4 «br /»«img src-'image4.jpg' 
“=< fast] 


获取 第 一 条 数据 可 以 使 用 extract_first0 方 法 : 


01 »»» response.xpath('//a[8class-"image"]').extract first() 
02 '«a href-'/img/l' class-'image'» image 1 «br /> 


«img src-'imagel.jpg' /»«/a»' 


$8429 Scrapy 有 把 虫 | 93 


在 使 用 xpath 方法 时 ， 要 特别 注意 相对 路 径 的 问题 。 在 HTML 示例 文件 中 ，div 标签 外 有 一 个 
p 标签 ，div 内 部 也 有 一 个 p 标签 ， 如 果 以 开始 的 XPath 语法 定位 标签 ， 就 说 明 与 当前 的 Sclector 
无 关 ， 而 是 从 整个 文档 开始 定位 ， 正 确 的 使 用 方法 是 以 '. ' 开 始 : 


>>>div tag = response.css('fimages') 
»»»div tag.xpath('//p').extract first() 
'«p»linelc/p»' 

»»»div tag.xpath('.//p').extract first() 
'<p>line2</p>' 


在 使 用 选择 器 的 时 候 ， 有 许多 方法 可 以 提取 属性 和 文本 信息 。 下 面 是 一 些 应 用 举例 : 


一 


>>> response.css('a::attr(href)"').extract () 
I'Zumg/ll*; fl re te "fFimgl3'. *Aimgqor] 


>>> response.xpath('//a[contains (8href, "img")]/Ghref').extract() 
['/img/1', '/img/2', '/img/3', '/img/4'] 


>>> response.css('a[href*-img]::attr(href)').extract() 
mL "/umqgy!2*,. "fimgl3". OO Aa 


>>> response.xpath('//a[contains (Ghref, "img")]/img/G8src').extract() 


['imagel.jpg', 'image2.jpg', 'image3.jpg', 'image4.jpg'] 


>>> response.css('a[href*-img] img::attr(src)').extract () 
['imagel.jpg', 'image2.jpg', 'image3.jpg', 'image4.jpg'] 
3X PER EEH: 

>>>images = response.css('t£fimages') 

>>>images 


[<Selector xpath="descendant-or-self::*[@id = 'images']" data='<div 
id="images">\r\n <a href="/img'>] 


»»» image 1 - images.css('a[href*-"1"]').extract First} 
»»»image 1 


'«a href-"/img/1" class-"image"»name:image 1 «br»«img src-"imagel.jpg"»«/a»' 
提取 的 数据 可 以 通过 .re0 正 则 表达 式 方 法 进一步 提取 筛选 : 


01 »»»response.xpath('//a[8class-"image"]/text()').re(r'name:(.*)') 


02 ['image 1l','image 1l','image 1l','image 1'] 
相应 的 ，re_ first0 提 取 第 一 条 数据 : 


DI »response.xpath("//a[Bclass-"mage"]/text() ") re £1rst(e" name: (-*) ^) 
02 'image 1' 
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以 上 就 是 Serapy 选择 器 的 一 些 基 本 用 法 ， 读 者 要 熟练 地 使 用 不 同 的 方法 定位 到 需求 的 元 素 ， 
在 进行 仆 虫 工作 时 会 有 很 大 的 帮助 。 


42 WAWE 


23 Y E n7; (8 HR USUS. E HE, Serapy 提供 了 几 种 通用 的 爬虫 。 比 如 ， 基 于 制定 
的 规则 抓 取 一 个 网 页 所 有 的 链接 ， 从 站 点 地 图 抓 取 或 解析 XML/CSV 源 。 本 节 要 介绍 的 通用 爬虫 包 
#5 CrawlSpider、XMLFeedSpider、CSVFeedSpider、SitemapSpider。 


4.2.1 CrawlSpider 


CrawlSpider 是 抓 取 网 站 常用 的 Spider， 它 提供 了 一 个 通过 制定 一 些 规 则 来 达到 跟 进 链接 的 方 
便 机 制 。 对 一 般 网 站 的 爬 取 来 说 ， 可 以 通过 修改 CrawlSpider 来 完成 任务 。 

CrawlSpider 中 最 常用 也 是 最 重要 的 就 是 rules 属性 。rules 是 一 个 或 一 组 Rule 对 象 ， 必 须 写 成 
tuple 形式 。 

每 一 个 Rule 对 象 定义 了 对 目标 网 站 的 讨 取 行为 , 如果 有 多 个 Rule 对 象 匹 配 了 同一 个 链接 ， 就 
说 明 第 一 个 Rule 会 生效 。 下 面 通过 示例 详细 介绍 Rule 对 象 。 

Rule 定义 如 下 : 


class scrapy.spiders.Rule( 
link extractor,callback-None,cb kwargs-None, 
follow-None,process links-None,process request-None) 


(1) link extrator 是 一 个 Link Extrator 对 象 , XE X. T m M CUTE RUE] va rf] np de DU Ee qr SE AE E 
跟 进 的 链接 ， 通 过 匹配 正则 表达 式 来 达到 这 一 目的 。 

(2) callback 是 一 个 回调 函数 或 者 字符 串 。 传 递 字符 串 时 ， 通 过 字符 串 查 找 本 类 中 对 应 的 函 
数 名 调用 该 函数 。 回 调 函 数 接收 Response 作为 第 一 参数 ， 同 时 返回 一 个 包含 Item 或 者 Request 对 
象 的 列表 。 


Ee Rule 对 象 中 不 能 使 用 parse 作为 回调 函数 , 原因 是 CrawlSpider 默认 使 用 parse 来 实现 
f& X398 8, Ae 3.75 f parse, ARA CrawlSpider 将 不 能 继续 正确 执行 。 


(3) cb kwargs 是 一 个 字典 对 象 ， 包 含 传递 给 回调 函数 Callback 指定 的 函数 ) 的 参数 。 

(4) follow 参数 是 一 个 布尔 值 ， 为 true BE false. 2773 True， 则 需要 跟 进 依据 此 条 规则 从 
Response 中 提取 的 链接 ; 藻 为 False， 则 不 跟 进 。 知 callback 指定 为 None， 则 follow 默认 为 True， 
否则 为 False。 

(5) process links 的 主要 功能 为 过 滤 。 它 是 一 个 回调 函数 或 者 字符 串 ， 传 递 字符 串 时 ， 通 过 
字符 串 查 找 本 类 中 对 应 的 函数 名 调用 该 函数 。 当 使 用 本 条 Rule 中 制定 的 link extrator 从 Reponse 
中 获取 链接 列表 时 会 调用 此 方法 。 
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(6) process request 是 一 个 回调 函数 或 者 字符 串 ， 传 递 字 符 串 时 ， 通 过 字符 串 查 找 本 类 中 对 
应 的 函数 名 调用 该 函数 。 通 过 本 条 Rule 提取 Request 时 调用 此 回调 函数 ， 该 函数 必须 返回 一 个 


Request 或 者 None。 


4.2.2 XMLFeedSpider 


XMLFeedSpider 主要 用 于 RSS 源 订阅 内 容 的 抓 取 。RSS 源 是 基于 XML 的 一 种 信息 聚合 技术 。 


该 仆 虫 通过 指定 节点 遍历 达到 抓 取 数 据 的 目的 。 


以 伯乐 在 线 资讯 类 栏目 的 RSS 订阅 为 例 简单 介绍 RSS 结构 。 单 击 订阅 源 按钮 如 图 4.1 所 示 。 


资讯 ea- on 
程序 员 标 配 ， 各 种 主流 开发 语言 专属 点 这 里 » 
地 址 1.1.1.1, Cloudflare 推 新 公共 DNS 服务 


2 0 


Ss 


安 卓 用 Java 


侵犯 甲骨 文 版 权 ， 谷 歌 或 赔 88 亿美 元 


Jave 2 


李 文 星 家 属 诉 BOSS 直 聘 : 哪怕 赔 一 分 能 给 个 交代 也 值 


Android Studio 3.1 正式 发 布 ， 默 认 便 用 D8 Dex 编译 器 


3/27 - Andrad 


Gitlab 发 布 全 球 开发 者 报告 : 开源 仍 是 主流 


2017 年 图 灵 奖 得 主 出 炉 ， 对 现代 计算 机 体系 结构 影响 深远 


03/22 Q4 


热门 分 类 


eb Python 
gios 


^7 EXE 


; si 


i. Java g Android 
W JavaScript o E 
A Linux Swift CSS 
UTI RAER WAR 
e" 全 Gc 


ee cpp « Docker 


推荐 关注 


关于 伯乐 头条 


图 4.1 伯乐 在 线 订阅 
单 击 之 后 可 以 查看 订阅 内 容 源 文 件 ， 部 分 如 图 4.2 所 示 。 


item 

titlecr-£ 0 e PE (EC 207 SEIH ith B FECI title 

link>http:/ /top. jobbole. com/ 38659/«/link 

comments»http://top. jobbole. com/38659/3respondc comments 

pubDate»Mon, 02 Apr 2018 10:48:28 +0000</pubDate> 

! [CDATA [18 ù] ] »«/ de : creator 
category><! [CDATA[ 4r 971] 

category»! [CDATA[ 8t ]] category 


dc:creator 
category 


guid isPermaLink-"false"»http://top. jobbole. com/?p-38659« /guid 
description 
href-"http://top. jobbole, com/38659/^» C^ 25 R zz og YEC^207P EHI Eg Ad a 
description 
wfw:commentRss^http: // top. jobbole. com/ 38659/feed/« /wfw:commentRss 
slash:comments?0C/slash:comments 
item 
item 
title> 地 址 1.1.1.1. Cloudflare 推 新 公共 DNS 服务 </title> 
linkòhttp://top. jobbole. com/38654/«/link 
comments»http: ///top. jobbole. com//38654/scomments 
pubDate»Mon, 02 Apr 2018 08:11:46 *0000«/pubDate^ 
! [CDATA [É 4] 45K] ]^ &/ de: creator 
category><! [CDATA[ Ml 7-1] 
category»c! [CDATA[CloudFlare]]^C/category 
category»! [CDATA[dns] ]^/category 


comments 


dc:creator 
/categorv 


guid isPermalink-"false"^http:/'/top. jobbole. com/?p-38654«/guid 

description 
Cloudflare 声称 它 将 是 “互联 网 上 速度 最 快 ， 隐 私 优 先 的 消费 者 DNS 服务 ”， 
href-"http://top. jobbole, com/38654/"»fHhhk 1.1.1.1. Cloudflare 推 新 公共 DNS 服务 </a 

description 
wfw:commentRss^http: // top. jobbole. com/ 38654/feed/« /wfw:commentRss 
slash:comments56C/slash:comments 
item 


![CDATA [<p> 会 议 上 ， 除 了 讨论 模块 ， 概 念 ， 范 围 等 最 大 事情 之 外 ， 


appeared first on 


![CDATA[<p>4 月 1 日 ，Cloudflare 宣布 正式 推出 1.1.1.1 公共 DNS 服务 ， 
此 前 类 似 的 免费 公共 服务 OpenDNS 与 Google DNS 都 已 经 服役 了 很 长 时 间 。 


“个 令 人 瞩目 的 特性 ， 弃 用 原始 指针 ! 


top. jobbole. com> HM - 伯乐 在 线 </a》， 


p?Xp?The post <a 
p>]] 


委员 会 还 讨论 出 了 
a href-"http: 


C +H 


号 称 任何 人 都 可 以 使 用 它 可 以 加 快 互联 网 访问 速度 并 并 保持 连接 私密 性 。 


p> <p’The post <a 


appeared first on «a href-"http: //top. jobbole. com HIN - 伯乐 在 线 </a>. 《</p>]] 


图 4.2 RSS 结构 
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可 以 看 到 ，<item>...</item> 标 签 之 间 是 文章 的 一 些 相关 信息 ， 也 就 是 需要 抓 取 的 内 容 ，item 
称 为 一 个 node《〈 节 点 ) 。 可 以 通过 不 同 的 节点 获取 我 们 需要 抓 取 的 内 容 。 
XML FeedSpider 中 的 一 些 属性 如 下 : 
e iterator: 指定 迭代 器 ， 和 迭代 器 主要 用 于 分 析 数 据 RSS 订阅 源 。 可 用 的 迭代 器 如 下 。 
*  itemodes: 性 能 高 ， 基 于 正则 表达 式 ， 是 XMLFEEDSpider 默认 的 迭代 器 。 
* html: 使 用 Selector 加 载 所 有 DOM 结构 进行 分 析 ， 当 数据 量 很 大 时 会 产生 性 能 问题 ， 
优点 是 处 理 不 合理 标签 时 比较 有 用 。 
e xml: 同 html 一 样 使 用 Selector 进行 分 析 ， 同 样 需要 加 载 所 有 DOM 结构 ， 会 产生 性 能 问题 。 
e itertag: 指定 需要 迭代 的 节点 ， 如 : 


itertag = 'item' 


e namespaces: 以 元 组 形式 组 成 的 列表 ， 定 义 了 Spider 处 理 文档 时 可 用 的 命名 空间 。 关 于 命名 空 
间 在 XML 文档 中 的 详细 作用 , 读者 可 参考 http//www.w3school.com.en/xml/xml namespaces.asp. 
同时 ， 可 以 在 itertag 中 指定 具有 命名 空间 的 节点 ， 此 时 和 迭代 器 应 指定 为 xml: 


01 class YourSpider (XMLFeedSpider): 


02 

03 namespaces = [('n', 'http://www.sitemaps.org/schemas/sitemap/0.9"')] 
04 iterator - 'xml' 

05 itertag = 'n:url' 


XML Feedspider 同样 具有 可 复写 的 方法 : 


e adapt response(response): 此 方法 在 处 理 分 析 Response 之 前 被 调用 ， 可 用 于 修改 Response 的 
内 容 。 此 方法 返回 类 型 为 Response. 

e parse node(response,selector): 当 匹 配 到 节点 的 时 候 ， 调 用 此 方法 进行 数据 处 理 。 很 重要 的 一 
点 是 ， 此 方法 必须 复写 ， 否 则 扑 虫 不 会 正常 工作 。 该 方法 必须 返回 一 个 Iem、Request， 或 者 
一 个 包含 Item 或 Request 的 迭代 器 。 

€ process result(response,result); 当 疏 虫 返 回 抓 取 结果 时 调用 此 方法 。 多 用 于 在 抓 取 结 果 传 递 给 
框架 核心 处 理 前 做 最 后 的 修改 。 该 方法 必须 接收 一 个 结果 列表 和 产生 这 些 结果 的 Response, 
返回 一 个 包含 Item 或 Request 的 结果 列表 。 


4.2.3 CSVFeedSpider 


CSVFeedSpider 与 XMLFeedspider 非常 相似 ， 区 别 是 XMLFeedspider 是 根据 节点 来 迭代 数据 
的 ， 而 CSVFeedSpider 是 每 行 迭 代 。 类 似 的 ， 每 行 迭 代 调 用 的 是 parse Tow0 方 法 。 第 用 的 属性 方 
法 如 下 : 
e delimiter: 字段 分 隔 符 ， 默 认 是 英文 过 号 ,。 
e quotechar: CSV 字段 中 如 果 包 含 回 车 、 引 号 、 过 号 ， 那 么 此 字段 必须 用 双 引 号 引起 来 。 此 必 
性 默认 值 为 半角 双 引 号 。 
e headers; CSV 文件 的 标题 头 ， 该 属性 值 是 一 个 列表 。 
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e parse row(response,row): 对 每 一 行 数据 进行 处 理 ， 接 收 由 一 个 Response、 一 个 文件 标题 头 组 
成 的 字典 。 


[i] XMLFeedSpider 一 样 ， 在 CSVFeedSpider 中 也 可 以 复写 adapt response 与 process result 
方法 。 


4.2.4 SitemapSpider 


SitemapSpider 允许 通过 Sitemap 发 现 URL S&EZoKJÉH —- beds. MARY, Sitemap 包含 网 
站 所 有 网 址 以 及 每 个 网 址 的 其 他 元 数据 , 包括 上 次 更 新 的 时 间 、 更 改 的 频率 以 及 相对 于 网 站 上 其 他 
网 址 的 重要 程度 为 何等 。Sitemap 有 TXT, XML. HTML 格式 , 一 般 以 XML 形式 展现 ， 代 码 如 下 : 


«urlset xmlns-"http://www.sitemaps.org/schemas/sitemap/0.9"» 
«url» 
«loc»http://example.com/«/loc» 
«lastmod»2016-09-06T00:00:16-408:00«/1astmod» 
«changefreq»dailyc/changefreq» 
«priority»1.0«/priority» 
«/url» 
«url» 
«loc»http:// example.com/link.html«/loc» 
«lastmod»2016-09-06T00:00:16-08:00«/1astmod» 
«changefreq»dailyc/changefreq» 
X«priority»0.8«/priority» 
«/url» 
«/urlset» 


e loc 表示 完整 网 址 。 
e lastmod 表示 本 网 页 最 后 修改 时 间 。 
e changefreq 表示 更 新 频率 。 
e priority 用 来 指定 此 链接 相对 于 其 他 链接 的 优先 权 比 值 。 
SitemapSpider 第 用 属性 如 下 。 
e sitemap urls: 一 个 包含 待 展 取 url 的 sitemap 列表 ， 也 可 以 指定 为 rebots.txt， 表 示 从 rebots.txt 
中 提取 url, 
e sitemap rules: 一 个 元 祖 列 表 ， 形 如 (regex,callback)， 其 中 : 
* regex 表示 需要 从 sitmap 中 提取 的 url 的 正则 表达 式 ， 可 以 是 一 个 字符 串 或 者 正则 表达 
* callback 是 处 理 对 应 的 url 的 回调 方法 ， 如 sitemap url = [(/price/",'parse_price")|， 提 取 到 
类 似 ****/price/** 链 接 时 调用 parse price 方法 处 理 。 需 要 注意 的 是 ， 相 同 的 链接 只 会 调 
用 第 一 个 方法 处 理 ， 并 且 如 果 此 属性 没有 指定 , 那 所 有 的 链接 默认 使 用 parse 方法 处 理 。 
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e sitemap follow: 一 个 指定 需要 跟 进 的 sitemap 的 正则 表达 式 列表 。 当 使 用 Sitemap index files 
来 指向 其 他 sitemap 文件 的 站 点 时 此 属性 有 效 。 上 默认 情况 下 ， 所 有 的 sitemap 都 会 被 跟 进 。 
e sitemap alternate links: 指定 当 一 个 url 有 可 选 的 链接 时 是 否 跟 进 。 有 些 网 站 url 块 内 会 提供 


备用 网 址 ， 如 : 


return item 
«url» 
«loc»http://example.com/«/loc» 


«xhtml:link rel-"alternate" hreflang-"de" href-"http://example.com/de"/» 


«/url» 


当局 用 sitemap alternate links 属性 时 ， 两 个 网 址 都 会 被 跟 进 ; 当 不 启用 sitemap alternate links 


时 ， 只 会 跟 进 http://example.com/， 此 属性 默认 不 启用 。 


4.3 WEZ 


4.3.1 实战 1: CrawlSpider [EHE A. E 


【示例 4-1】 使 用 CrawlSpider ME x TU idis 


ERKAK Chttp://quotes.toscrape.com/) 数据 的 流程 为 : 首先 ， 进 入 主页 面 ( 见 图 4.3) ， 
提取 名 言 内 容 、 作 者 姓名 、 标 签 ， 然 后 通过 作者 链接 跟 进 作者 介绍 页 面 〈 见 图 4.4) ， 提 取 作 者 相 


关 信 息 。 


Quotes to Scrape 


"The world as we have created it is a process of our thinking. It cannot be changed 
without changing our thinking.” 
by Albert Einstein (about) 


Tags: CETS CETT 


"It is our choices, Harry, that show what we truly are, far more than our abilities." 
by J.K. Rowling (about) 


Tags: 


“There are only two ways to live your life. One is as though nothing is a miracle. 
The other is as though everything is a miracle.” 
by Albert Einstein (about) 


Tags: EED 0 四 CD CD 


"The person, be it gentleman or lady. who has not pleasure in a good novel, must 
be intolerably stupid.” 
by Jane Austen (about) 


Tags: EED EE CD TH 


"Imperfection is beauty, madness is genius and it's better to be absolutely 
ridiculous than absolutely boring." 
by Marilyn Monroe (about) 


Tags: (TEE: 
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Top Ten tags 


第 4 


Quotes to Scrape 


Albert Einstein 


Born: March 14, 1879 in Ulm, Germany 
Description: 


In 1879, Albert Einstein was born in Ulm, Germany. He completed his Ph.D. at the University of Zurich by 1909. His 
1905 paper explaining the photoelectric effect, the basis of electronics, earned him the Nobel Prize in 1921. His first 
paper on Special Relativity Theory, also published in 1905, changed the world. After the rise of the Nazi party, Einstein 
made Princeton his permanent home, becoming a U.S. citizen in 1940. Einstein, a pacifist during World War I, stayed a 
firm proponent of social justice and responsibility. He chaired the Emergency Committee of Atomic Scientists, which 
organized to alert the public to the dangers of atomic warfare.^t a symposium, he advised: "In their struggle for the 
ethical good, teachers of religion must have the stature to give up the doctrine of a personal God, that is, give up that 
source of fear and hope which in the past placed such vast power in the hands of priests. In their labors they will have 
to avail themselves of those forces which are capable of cultivating the Good, the True, and the Beautiful in humanity 
itself. This is, to be sure a more difficult but an incomparably more worthy task . . . * (Science, Philosophy and Religion, 
A Symposium," published by the Conference on Science, Philosophy and Religion in their Relation to the Democratic 
Way of Life, Inc., New York, 1941). In a letter to philosopher Eric Gutkind, dated Jan. 3, 1954, Einstein stated: "The word 
god is for me nothing more than the expression and product of human weaknesses, the Bible a collection of 
honorable, but still primitive legends which are nevertheless pretty childish. No interpretation no matter how subtle 
can (for me) change this," (The Guardian, "Childish superstition: Einstein's letter makes view of religion relatively clear," 
by James Randerson, May 13, 2008). D. 1955. While best known for his mass-energy equivalence formula E = mc2 
(which has been dubbed “the world's most famous equation"), he received the 1921 Nobel Prize in Physics “for his 
services to theoretical physics, and especially for his discovery of the law of the photoelectric effect'. The latter was 
pivotal in establishing quantum theory.Einstein thought that Newtonion mechanics was no longer enough to reconcile 
the laws of classical mechanics with the laws of the electromagnetic field. This led to the development of his special 
theory of relativity. He realized, however, that the principle of relativity could also be extended to gravitational fields, 
and with his subsequent theory of gravitation in 1916, he published a paper on the general theory of relativity. He 
continued to deal with problems of statistical mechanics and quantum theory, which led to his explanations of particle 
theory and the motion of molecules. He also investigated the thermal properties of light which laid the foundation of 
the photon theory of light.He was visiting the United States when Adolf Hitler came to power in 1933 and did not go 
back to Germany. On the eve of World War Il, he endorsed a letter to President Franklin D. Roosevelt alerting him to 
the potential development of "extremely powerful bombs of a new type" and recommending that the U.S. begin 
similar research. This eventually led to what would become the Manhattan Project. Einstein supported defending the 
Allied forces, but largely denounced the idea of using the newly discovered nuclear fission as a weapon. Later, with 
Bertrand Russell, Einstein signed the Russell-Einstein Manifesto, which highlighted the danger of nuclear weapons. 
Einstein was affiliated with the Institute for Advanced Study in Princeton, New Jersey, until his death in 1955.His great 
intellectual achievements and originality have made the word "Einstein synonymous with genius.More: 
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步骤 如 下 : 


C: 


MEERA, WE 4.5 所 示 。 


图 4.5 创建 Scrapy Ji H 


创建 之 后 ， 在 spiders 文件 夹 下 创建 爬虫 文件 quotes.py， 内 容 如 下 : 


import scrapy 
from scrapy.spider import CrawlSpider,Rule 
from scrapy.linkextractors import LinkExtractor 


class Quotes (CrawlSpider): 


# 爬虫 名 称 


name = "quotes" 
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allow domain = ['quotes.toscrape.com'] 


start urls - ['http://quotes.toscrape.com/'] 


# 设 定 规则 

rules - (人 
# 对 于 quotes 内 容 页 URL, HH parse quotes 处 理 
# 并 以 此 规则 跟 进 获取 的 链接 


Rule (LinkExtractor (allow-'/page/NMd*'),callback-'parse quotes', 


follow-True), 
# 对 于 author 内 容 页 URL， 调 用 parse author AH, ERAH 
Rule (LinkExtractor (allow-'/author/Nw-*'), 


callback-'parse author') 


# 提取 内 容 页 数据 方法 
def parse quotes (self,response): 
for quote in response.css(".quote"): 
yield { 
!"CODEERE Ue CSSA Cont: Fon ERE roci ELSE 
"author - quote.css[i'.author.:Ltext')].extracb Frst(l)r 
'tags': quote.css('.tag::text').extract () 
} 
# 获取 作者 数据 方法 
def parse author(i[seltf, response) : 
name — response.css('.author-L:tle::EFext ).extracE ES 人 
author born date - response.css 
(".author-born-date::text').extract first () 


author bron location - response.css 


['.author-born-location::text'].extract rfirst() 


author description - response.css 


(".author-descripLlion::text').extract Ffirst() 


return (í( 
'name':name, 
'author bron date':author born date, 
'author bron location':author bron location, 
'author description': author description 


}) 


EZD) 运行 公 虫 ， 执 行 scrapy crawl quotes， 如 图 4.6 所 示 。 


内 容 提 取 结 果 如 图 4.7 所 示 。 


FRU INE TL :: 


toscrape. co 


rape.com/author / Ayn-Rand/ 


tp://quotes, 


http://quotes. 


© http://gquotes, toscre 


图 4.7 内 容 提 取 结 果 
作者 信息 提取 结果 如 图 4.8 所 示 。 


a 


Dumas-f3 


图 4.8 作者 信息 提取 结果 
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这 里 主要 对 rules 中 制定 的 规则 进行 讲解 。 
( 1 ) Rule(LinkExtractor(allow-'/pageAd--), callback-'parse quotes', follow=True) 
查看 页 面 元 素 ， 查 看 下 一 页 按钮 ， 链 接地 址 为 /page/+ 页 面 数 字 ， 如 图 4.9 所 示 。 


v«li class-"next 
><a href="/page/2/">..</a> == $8 
/li 
: :after 


49 内容 页 URL 


所 以 第 1 条 Rule 中 ， 礁 取 符 合 /pageAd+' 正 则 表达 式 的 所 有 链接 即 为 所 有 内 容 页 。 然 后 根据 
callback 调用 parse quotes 处 理 ， 提 取 相 关 数 据 ， 由 于 follow=True， 因 此 跟 进 Response 返回 的 所 有 
符合 规则 的 链接 ， 也 就 是 内 容 页 的 链接 。 

(2) Rule(LinkExtractor(allow="/author\w+'), callback-'parse author") 


small class-"author" itemprop-" author" »Albert Einstein-/small 
«a hrefz"/author/Albert-Einstein"»(about)«/a» == $8 
/span 
> «div class-"tags" »..«/div 
/div 


4.10 作者 介绍 页 URL 


因此 ， 在 第 2 条 Rule 中 ， 对 所 有 满足 正则 表达 式 VauthorNw+' 的 链接 进行 抓 取 ， 即 可 获取 作者 
介绍 页 的 内 容 ， 调 用 parse author 进行 数据 提取 。 
本 例 中 使 用 .css0) 方 法 进行 数据 提取 ， 读 者 可 以 尝试 使 用 .xpathO 进 行 数 据 提 取 练 习 。 


4.3.2 实战 2: XMLFeedSpider MERU REAJI RSS 


【示例 4.2】 一 个 使 用 XMLFeedspider 抓 取 伯乐 在 线 RSS 订阅 信息 的 爬虫 实例 
疏 取 伯乐 在 线 资讯 文章 ， 内 容 和 结构 分 别 如 图 4.1 和 图 4.2 所 示 。 


(1) 创建 候 虫 项 目 ， 如 图 4.11 所 示 。 


EN SERM 一 口 X 


图 4.11 创建 项 目 


如 下 ; 
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(2) f Hl XMLFeedSpider 模板 创建 朴 虫 ， 如 图 4.12 所 示 。 
Ed 命令 提示 符 - O x 

412 4E XMLFeedspider Eit G1 geJfe d 
(3) 这 次 我 们 使 用 Item 收集 数据 ， 在 xmlfeedspider 文件 夹 中 ， 修 改 items.py 文件 ， 代 码 
01 import scrapy 
02 
03 
04 class JobboleItem(scrapy.Item): 
05 # define the fields for your item here like: 
06 # name = scrapy.Field() 
07 # 文章 标题 
08 title = scrapy.Field() 
09 # 发 表 日 期 
10 public date - scrapy.Field() 
11 # 文章 链接 
12 link = scrapy.Field() 
(4) f£ spiders 文件 中 ， 修 改 jobble.py 文件 ， 代 码 如 下 : 
01 from scrapy.spiders import XMLFeedSpider 
02 # 导入 item 
03 from xmlfeedspider.items import XmlfeedspiderItem 
04 
05 class JobboleSpider (XMLFeedSpider): 
06 name = 'jobbole' 
07 allowed domains - ['jobbole.com'] 
08 start urls = ['http://top.jobbole.com/feed/'] 
09 iterator = 'iternodes' # 迭代 器 ， 不 指定 的 话 ， 默 认 是 iternodes 
10 itertag — 'item' # 抓 取 item 节点 
11 
{2 det purse dou (Seri response, selector): 
13 item = XmlfeedspiderItem() 
14 1iteml Etle | — selecbor.css[ EILIG;-EEXE ).exLracb FirsELQ 
T5 item['public date'] = selector.css 

('psbDDaste-:Ltext ).extract Firstl) 

16 iteml Ink = selector.css("'Hink::text').extract first() 


1j return item 
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(5) 在 setting 中 ， 需 修改 的 配置 如 下 : 
ROBOTSTXT OBEY = False # 不 依据 robots .txt 规则 


(6) 运行 把 虫 ， 查 看 结果 ， 如 图 4.13 所 示 。 


4.13 XMLFeedspider 运行 结果 


可 以 看 到 ， 根 据 指定 的 节点 抓 取 了 所 有 文章 的 信息 。 


4.3.3 实战 3: CSVFeedSpider 提取 csv 文件 数据 


【示例 4-3】 使 用 CSVFeedSPider 提取 csv 文件 数据 
从 贵州 省 数据 开放 平台 下 载 科 技 特 派 员 csv 文件 ， 文 件 地 址 为 : 
http://gzopen.oss-cn-guizhou-a.aliyuncs.com/ 科 技 特派 员 .csv 

(1) 使 用 命令 创建 项 目 : 

>>>scrapy startproject csvfeedspider 

(2) 进入 项 目 目 录 : 


>>>cd csvfeedspider 


>>> scrapy genspider -t csvfeed csvdata gzdata.gov.cn 
(3) 编写 items.py 文件 ， 代 码 如 下 : 


01 import scrapy 
02 
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03 

04 class CsvspiderItem(scrapy.Item): 
05 # define the fields for your item here like: 
06 # 姓名 

07 name = scrapy.Field() 

08 # 研究 领域 

09 SearchField = scrapy.Field() 
10 * 服务 分 类 

11 Service = scrapy.Field() 

12 # 专业 特长 

23 Specialty - scrapy.Field() 


(4) Jg SEREHE csvdatapy， 内 容 如 下 : 


DI T —*- coding: ntft-8 —5-— 
02 from scrapy.spiders import CSVFeedSpider 
03 from csvfeedspider.items import CsvspiderItem 


04 

05 

06 class CsvparseSpider (CSVFeedSpider): 

07 name = 'csvdata' 

08 allowed domains - ['gzdata.gov.cn'] 

09 start urls - ['http://gzopen.oss-cn-guizhou-a.aliyuncs.com 
/科技 特派 员 .csv'] 

10 headers = ['name', 'SearchField', 'Service', 'Specialty'] 

ET delimiter - ',' 

12 quotechar = "An" 

13 

14 # Do any adaptations you need here 

15 def adapt response(self, response): 

16 return response.body.decode('gb18030') 

Bf 

18 def parse row(self, response, row): 

19 i = CsvspiderItem() 

20 i['name'] = row['name'] 

21. i['SearchField'] = row['SearchField'] 

22 i['Service'] = row['Service'] 

23 i['Specialty'] = row['Specialty'] 

24 return i 


在 adapt response(0) 方 法 中 ， 我 们 对 response 做 了 编码 处 理 ， 使 之 能 正常 地 提取 中 文 数 据 ， 如 
果 不 做 处 理 ， 提 取出 来 的 将 是 乱码 数据 。 


(5) íT ER 
>>>scrapy crawl csvdata 


查看 运行 结果 ， 如 图 4.14 所 示 。 
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图 4.14 csvdata 运行 结果 


4.34 实战 4: SitemapSpider 爬 取 博客 园 文章 


【示例 4-4】 使 用 SitemapSpider ERZ d cnblogs.com 文章 
博客 园 的 Sitemap 地 址 为 http://www.cnblogs.com/sitemap.xml, 查看 其 中 内 容 ， 如 图 4.15 所 示 。 


我 们 需要 抓 取 python 类 别 下 的 所 有 文章 的 标题 、 作 者 、 文 章 网 址 。 


C ( 不 安全 | www.cnblogs.com/sitemap.xml 


Xlastmod»2019-03-02T16: 46:23+00:00</1astmod> 
<changefreghourly</changef reg) 
<priority»0. 8<% priority) 

</url> 


Cloc?http:/ /www,. cnblogs. com/cate/python/«/10c» 
Xlastmod»2019-03-02T16: 46:23+00:00</1astmod> 
Cchangzefreg?hourlyc/chanzefreq» 
X(priority?0. 8X/priority» 

Curl» 


Clocohttp:/ /www. cnblogs. com/cate/ codelife/«/loc» 
Xlastmod»2019-03-02T16: 46: 2300: 00«/1astmod^ 
Cchangefreq?hourlyc/changef req» 
(priority?0.84/priority? 

Curl? 

v «url» 

Clocohttp: / /wwr. crblogs. com/cate/ job/ </ loc> 
Xlastmod»2019-03-02T16: 46: 23*00: 00€ /1astmod^ 
Cchangefreq?hourlyX/changef req» 
4(priority?0. 8X/priority? 

Cfurl5 


4.15 cnblogs 网 站 Sitemap 


python 类 别 下 的 文章 如 图 4.16 所 示 ， 查 看 文章 标题 、url、 作 者 元 素 定 位 信息 。 


Re o [  PxthonEGiSR z UBIFHIPythonsa Hi MEER 

手机 开发 (人 \ x E soea! 本 文 转载 扬 : python Ap FRSE: http www.pythonheidong.com/blog/articla/9/ . 
软件 工程 [0) | 

EUSERRG) | 
HETS) 
E26) 


Ez53- 2019-03-02 16:33 E 评论 (0) e> EN) 


K & | Elements Cansole Source Network Performance Memory Applicatio Security Audits AdBlock 
"«div class-"post item body" 
` h3> 
a class-"“titlelnk™ hret-"https:/7 
起 数列 </a> 
/h3 
p<p class-"post item summary »..«/p 
"div class-"post item foot' 


«a href-^https://www.cnblogs.com/fuchen9527/" class-"lightblue »;$739527«/a» == $0 


w.cnblogs.com/fuchen9527/p/10461641.html" target-^ blank"ypython 面 试题 之 如 何 用 Python 输出 一 个 慕 泪 那 


发 布 于 2019-03-02 16:33 


><span class="article comment" >..</st 


图 4.16 python 类 别 下 的 文章 元 素 定位 信息 
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分 析 完 之 后 ， 开 始 创建 项 目 ， 编 写 代码 。 

(OD 创建 项 目 : 

»»»scrapy startproject cnblogs 

(2) 修改 items.py 文件 ， 抓 取 文 章 标题 、url、 作 者 ， 内 容 如 下 : 


01 import scrapy 


02 
03 
04 
05 
06 
07 
08 
09 
10 
11 
12 


class CnblogsItem(scrapy.Item): 


# define the fields for your item here like: 
# 文章 标题 

title = scrapy.Field() 

+ XX url 

url = scrapy.Field() 

# 文章 作者 


author = scrapy.Field() 


(3) 在 spiders 文件 夹 内 创建 articles.py 爬虫 文件 ， 内 容 如 下 : 


01 from scrapy.spiders import SitemapSpider 


02 from cnblogs.items import CnblogsItem 


03 
04 
05 
06 
07 
08 
09 
10 
Pt 
12 
13 
14 
T3 
16 
17 
18 
19 
20 
z1 


dz 
23 


class MySpider (SitemapSpider): 


name = 'articles' 
# Sitemap 地 址 
Sitemap urls = ['http://www.cnblogs.com/sitemap.xml'] 
# 从 Sitemap 中 提取 url 的 规则 ， 并 指定 回调 方法 
sitemap rules = [ 
# JU ***/cate/python/**Bj url, WHljparse python 处 理 
('/cate/python/','parse python') 


# 回调 方法 
def parse python (self,response): 


articles = response.css("'.post item') 


for article in articles: 
item = CnblogsItem() 


# 文章 标题 

item['title'] = article.css 
('.titlelnk::text').extract first() 

# 文章 url 

item['url'] = article.css 
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24 # 文章 作者 

259 item['author'] = 
arbicie:css[p =Tiqghtbine -Lexb ] .exEFaCE First) 

26 yield item 


使 用 sitemap rules 定义 提取 url 的 规则 ， 并 指定 回调 方法 ， 保 存 到 CnblogsItem 中 。 
(4) ZTE: 
scrapy crawl articles 


fURTRBASR, nl] 4.17 所 示 。 


17:23:33 [scrapy.core.engine] DEBUG: Crawled (200) « tp: //www.cnblogs.com/robots.txt» (referer: None) 
[scrapy.core.engine] DEBUG: Crawled (2 < t .cnblogs.com/sitemap.xml» (referer: None) 
[scrapy.core.engine] DEBUG: Crawled (2800) < t /www . cnblogs .com/cate/python/» (referer: http://wwu.cnblags .com/sitemap 

2019 E [scrapy.core.scraper] DEBUG: Scraped from «2€ tp://www. cnblogs . com/cate/python/» 
f'author': '? 
'title': 30e] FHPythorná$ | 应 les 
'url': 'https:/ u. cnblogs .com/fuchen9527/ 0461641 .html ' Y 
2019-03-02 17: scrapy.core.scraper] DEBUG: Scraped from «20€ : /wwn. /cate/python/> 
{'author':“ 赵 字 
'title': 'Pyt j 案例 : ABS, 
'url': 'https://www.cnblogs.com/qxPython/p/10461404 .htm] ' Y 
2019-03-02 17:23 scrapy.core.scraper] DEBUG: Scraped from «200 http://www.cnblogs /cate/python/> 
{"author": E 
和 2 3 fileOS', 
ww. cnblogs.com/pilgrim-acc/p/10461365 .html' } 
[scrapy.core.scraper] DEBUG: Scraped from : //wwu . cnblogs /cate/python/ 
i author ': ] 
"title': "JÈ sts[R rA 
rl w.cnblozs.com/12345huangchun/p/10461211 . htm] ' } 
scrapy.core.scraper] DEBUG: Scraped from «200 http: //www.cnblogs /cate/python/» 


始 的 Python 学 习 Episode 26-A RiR (32 ', 
/www. cnblozs.com/smilepup-hhr/p/10461112. html ' 
[scrapy.core.scraper] DEBUG: Scraped from «200 : //www . cnblogs /cate/python/ 


i author `: 
'title': “5 小 常 IE JPython'| 1315", 
ET 9 : /wwu. cnblogs .com/shsxt/ 6460981 .htn1 ' * 
2019-03-02 17: [scrapy.core.scraper] DEBUG: Scraped from «200 http:/ . cnblogs . com/cate/python/ 


图 4.17 HR cnblogs 运行 结果 


在 Scrapy PEPI &-RPABL Up, KERR T e b DUM HERR ALPE. nu RE UU RT 
供 各 种 处 理 数据 的 能 力 , 比如 清洗 保存 数据 、 处 理 图 片 与 文件 , 还 可 以 在 管道 中 进行 数据 存储 操作 ， 
存 入 数据 库 或 存储 到 本 地 文件 等 。 
本 章 主要 的 知识 点 有 : 
。 管道 的 编写 方法 
文件 处 理 
。 图 片 处 理 
。 数据 库存 储 


5.1 管道 简介 


管道 (Item Pipeline〉 的 主要 作用 是 处 理 抓 取 的 数据 。 当 有 扑 虫 抓 取 到 数据 并 转化 为 Item 之 后 ， 
会 传递 给 Item Pipeline 做 进一步 处 理 ， 包 括 : 

e 清洗 数据 

o 检查 抓 取 的 数据 是 否 有 效 

e 去 重 

e 保存 数据 

一 个 项 目 可 以 包含 多 个 管道 ,通过 爬虫 收集 到 的 tem 会 依次 按 指定 顺序 传递 给 管道 进行 处 理 。 
每 一 个 管道 都 是 实现 一 些 指 定 方 法 的 Python 2$. 这 些 方法 接收 Item 作为 参数 , 判断 此 Item 是 否 进 
行 下 一 步 处 理 ， 还 是 丢弃 。 
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5.2 编写 目 定义 管道 


管道 的 编写 很 简单 ， 每 一 个 Item Pipeline 都 是 独立 的 Python 类 ， 只 要 实现 一 些 指定 的 方法 即 


可 实现 管道 的 定制 : 


process item(self, item, spider): process itemO 有 是 每 个 管道 都 必须 实现 的 方法 。 数 据 处 理工 作 都 
在 此 方法 中 进行 ， 该 方法 返回 一 个 有 数据 的 dict. Item (或 者 继承 类 )， 返 回 Twisted Deferred 
或 抛 出 Dropltem 异常 ， 丢 弃 的 数据 不 会 再 传递 到 其 他 管道 进行 处 理 。 其 中 ， 参 数 item 对 象 
是 被 疏 取 的 Item, žk spider 代表 有 爬 取 该 Item 的 Spider, 

open spider(self, spider); 当 有 爬虫 开 尼 的 时 候 执行 此 方法 ， 一 般 做 一 些 初 始 化 工作 ， 比 如 连接 
数据 库 。 

close spider(self, spider); 当 已 虫 关闭 的 时 候 执 行 此 方法 ， 可 以 做 一 些 收尾 工作 、 关 闭 数据 库 
等 。 

from crawl(cls, crawler): 该 方法 是 一 个 类 方法 。 调 用 此 方法 会 通过 初始 化 crawler 对 象 返 回 一 
个 Pipeline 实例 。 通 过 crawler 对 象 可 以 返回 Scrapy 的 所 有 核心 组 件 ， 如 全 局 配置 信息 。 


【示例 5-1】 以 抓 取 并 存储 伯乐 在 线 最 新 文章 为 例 演示 管道 基本 用 法 
(1) 创建 项 目 : 
2»»scrapy startproject jobbole article 


(2) 使 用 genspider mS Gl £Ef& n x fT: 


»»»cd jobbole article 


>>>scrapy genspider article jobbole.com 


(3) 进入 项 目 目录 ， 修 改 items.py 文件 ， 内 容 如 下 : 


01 
02 


import scrapy 


class JobboleArticlelItem(scrapy.Item): 
# define the fields for your item here like: 
# name = scrapy.Field() 
# 文章 标题 
title = scrapy.Field() 
# 内 容 摘要 
summary = scrapy.Field() 
# 发 表 日 期 
publish date = scrapy.Field() 
# 标签 
tag = scrapy.Field() 
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(4) 使 用 JSON 格式 化 存储 抓 取 数据 ， 修 改 pipelines.py， 内 容 如 下 : 


01 import json 

02 

03 

04 class JobboleArticlePipeline (object): 


05 + 当 启 动 候 虫 时 ， 打 开 items .json 文件 ， 准 备 写 入 数据 


06 det open spider[selt., spsderj- 

07 self.file = open('items.json','w') 
08 

09 E 当 疏 虫 执行 结束 时 ， 关 闭 打开 的 文件 

10 det close spirder(selt, spiderj: 

Im self.file.close() 

12 

13 # 将 抓 取 到 的 数据 做 json 序列 化 存储 

14 def process iLem[selr, item, spider): 
15 line = json.dumps (dict (item), ensure ascii-False) + "Mn" 
16 self.file.write(line) 

17 return item 


在 这 里 简单 介绍 一 下 JSON (JavaScript Object Notation?) . JSON 是 一 种 轻 量 级 的 数据 交换 格 
式 ， 表 示 出 来 就 是 一 个 字符 串 ， 可 以 被 所 有 语言 读 取 。 在 Python 中 ，JSON 处 理 文 件 本 质 上 就 是 一 
个 编码 、 解 码 的 过 程 。 

JSON 库 中 的 dump 和 dumps 方法 实现 JSON 编码 功能 。 区 别 是 dump 方法 将 编码 后 的 数据 保 
存 到 文件 中 ， 而 dumps 方法 产生 一 个 JSON 字符 串 ， 使 用 方法 如 下 : 


>>> student = ("name":"Ming", "age":14] 
>>> import json 

>>> student = ("name":"Ming","age":16] 
>>> json.dumps (student) 

'("name": "Ming", "age": 16)' 

>>> f = open('student.json','w') 

>>> json.dump (student, f) 

>>> f.close() 


至 于 上 面 代 码 中 使 用 的 ensure ascii-False 参数 ， 是 因为 JSON 在 处 理 中 文 时 ， 默 认 使 用 的 是 
ASCI 编码 ， 指 定 此 参数 为 False 才能 正确 地 在 文件 中 保存 中 文 格式 数据 。 

load 和 loads 方法 实现 JSON 解码 功能 ，load 需要 从 文件 加 载 数据 解码 ， 而 loads 加 载 字 符 串 
进行 解码 ， 使 用 方法 如 下 : 


>>> books-[í'name':'Python', 'price':24], ('name':'Java', 'price':45], 
('name':'PHP', 'price' :33]] 

>>> json str-json.dumps (books) 

>>> json.loads(json str) 

[('name': 'Python', 'price': 24], ('name': 'Java', 'price': 45], [('name': 
"PHP". *price': 33]] 
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>>> f-open('books.json','w') 

>>> json.dump (books, f) 

>>> f.close() 

>>> json file-open('books.json','r') 

»»» json.load(json file) 

[('name': 'Python', 'price': 24], ['name': 'Java', 'price': 45], [("'name': 
"PHP". "price'- 33I 


(5) 编写 完 管道 之 后 ， 需 要 启用 管道 ， 不 然 不 会 生效 。 只 需要 将 管道 添加 到 settings.py 文件 
的 ITEM_PIPELINES 变量 中 : 


# Configure item pipelines 
# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html 


ITEM PIPELINES = { 
'jobbole article.pipelines.JobboleArticlePipeline': 300, 
} 


(6) 最 后 进行 仆 虫 文件 的 编写 。 在 每 一 页 中 获取 Item 所 需 元 素 ， 然 后 查找 是 否 有 下 一 页 ， 一 
直 循 环 下 去 。spiders/article.py 中 的 代码 如 下 : 
1 — coding: urr-H —*— 


02 import scrapy 


03 from jobbole article.items import JobboleArticleItem 


04 
05 
06 class ArticleSpider (scrapy.Spider): 
07 name = 'article' 
08 allowed domains - ['jobbole.com'] 
09 start urls - ['http://blog.jobbole.com/all-posts/'] 
10 
ALI def parse(self, response): 
12 all post - response.css(".post") 
23 tor post in ali past: 
14 item = JobboleArticleItem() 
t9 item title: ] = post css (° -archive title: tex -extract EirsET) 
16 item['summary'] —post.css('.excerpt p::text').extract first() 
17 # 根据 正则 表达 式 提取 发 表 日 期 
18 item['publish date'] — post.css('.post-meta p::text'). 
re first(r'XAd[4]/NAd[2) /Xat2] ") 
19 # Tag 标签 可 能 有 多 个 ， 因 此 不 需要 获取 第 一 个 值 ， 保 存 列 表 即 可 
20 item['tag'] = post.xpath(".//a[2]/text () ") .extract () 
21 yield item 
22 
23 # 检查 是 否 有 下 一 页 ur1， 如 果 有 下 一 页 ， 则 调用 parse 进行 处 理 
24 next page — response.css('.next::attr(href)').extract first () 


25 if next page: 
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26 yield scrapy.Request(next page,callback-self.parse) 
2] 


C7) 运行 爬虫 
scrapy crawl article 


(8) 查看 生成 的 itemjson 文件 ， 查 看 保存 的 数据 ， 如 图 5.1 所 示 。 


*("title": "8 3 XL HU TS 了 可 nux ú x DR publish date": "2018/09/18", "tag":^ 
("title": "fk ping — F] 的 时 候 ， pgs ERE MUI” " "summary": "我 们 在 dat si Icd ad D MEA Ici RD X: E ping — -下 ， 者 一 下 网 络 状况 。 拖 
("title": " 哪 门 编程 语言 更 赚钱 ? 看 看 Stack Overflow 的 最 新 调 fi", "summary": "Stack Overflow 2018 ÍEJ gs; rip EESCLIESXETH S ANH SESR DT 
("title": "XPF Caiff) 和 补丁 文件 (patch) 简介 "， "summary": "这 篇 文章 介绍 差异 文件 Cdiff) 和 补丁 文件 Cpatch》， 以 及 它们 如 何在 开源 项 目 中 使 
("title": "深入 学 习 Redis (4) : 了 哨兵" "summary" "本 文 将 要 介绍 的 哨 兵 ， 它 基于 Redis 主 从 复制 ， 主 要 作用 便 是 解决 主 节点 故障 恢复 的 自动 化 问题 ， 过 
("title": "介绍 Linux 中 的 管道 和 命 ep, m ME, "要 在 命 令 间 移动 数据 ? 使 用 管道 可 使 此 过 程 便 捷 。 "，"publish date": "2018/09/12", "tag" 
{"title"; " "深入 理解 ext4 等 Linux 文件 系 (kn, "summary": "了 角 ext4 的 历史 ， 包 括 其 与 sxt3 利之 前 的 其 vr 系统 之 问 的 区 别 。 ", "publish date": 
("title": 像 主题 色 提 取 算 法 "，"summary" “许多 从 自然 场景 中 拍摄 的 图 像 ， 其 色彩 分 布 上 会 给 人 一 种 和 谐 、 一 狼 的 感觉 反 过 来 ， 在 许多 界面 设计 应 用 中 
("title": " 走 近 北 京 后 ) -村 程序 员 的 真实 Hi m. “Einte”, "summary": "北京 的 西北 角 是 个 特别 的 区 域 ， 这 里 汇集 了 众多 互联 网 及 IT 企业 ， 实 力 雄 厚 的 上 市 
("title": "(EZ WEBH, M2 Em 一 聊 聊 软件 开发 中 的 最 佳 实践 "， "summary": "描述 一 个 事物 ， 了 哗 有 一 个 名 词 定 义 它 的 概念 ， 唑 有 一 个 动词 揭露 它 的 行为 ， 叭 
("title": "基于 海 基 词 库 的 单词 拼写 检查 、 推 荐 到 底 是 咋 做 的 ? ", "summary": "本 文 就 来 介绍 一 个 能 够 完成 单词 拼写 检查 、 推荐 任务 的 算法 。"， "publish de 
("title"; "程序 员 找 工作 面试 会 明 到 哪些 坑 " ，"summary": "今天 这 篇 文章 ， 我 们 就 来 聊 一 聊 校 招 找 工作 时 会 过 到 哪些 坑 。 需 要 注意 的 是 ， 这 些 坑 不 一 定 是 用 人 
("title": "GBDT 回归 的 原理 与 Python 实现 "， "summary": "有 问题 ， 上 上 知 乎 。 知 乎 是 中 文 互联 网 知名 知识 分 享 平 人 台 ， 以 「 知识 连接 一 切 」】 为 取景 ， 致 力 于 构 关 
("title": "从 技术 转 管理 ， 我 做 了 什么 来 探 教 和 白 己 ? "s. lena A "我 是 一 各 新 手 项 目 经 理 ， 转 项 目 管理 岗 1 年 半 .。 在 做 管理 之 前 ， 我 是 一 名 开发 。 也 就 是 说 ， 
("title";: "一 名 IT 经 理 是 怎么 把 一 个 项 目 带 前 的 "，"summary": "我 是 一 名 项 目 既 理 ， 在 过 去 的 四 个 月 里 ， 我 把 一 个 项 目 带 崩 了 〔 上 线 后 频 册 问题， 用户 无 法 
("title": "vim 代码 片段 插件 vultisnips 使 用 教程 "， "sunmary": "Dltisnips 岳 件 安装 分 两 部 分 ， 一 个 是 ultisnips 岳 件 本 身 ， 另 外 一 PE E ci uA i 
("title": " SQLite 多 年 青睐 ，C 语言 到 底 好 在 哪儿 ? ", "summary": "SQLite 近日 发 表 了 一 篇 博文 ， 解 释 了 为 什么 多 年 来 soLite 一 直 坚 持 用 c 语言 来 实 
("title": "如 何在 Linux shell iti PiE SUB HL S", ' "summary": 函数 是 一 段 可 复 用 的 代码 。 我 们 通常 把 重复 的 代码 放 进 函数 中 并 且 在 不 同 的 地 方 去 调 | 
("title": "X[LL Ubuntu 18.04 利 | Fedora 28", "summary": "Ubuntu 利 Fedora 是 两 个 主流 的 Linux 发 行 版 。 Wis Boe ELTE dett 不 实 的 特性 ， 因 而 新 接 
("title": " 死 奢 一 周 算法 ， 我 让 服务 性 能 提高 508"，"summary": "我 们 的 检索 服 Ar! 中 用 到 了 最 小 编辑 距离 算法 ， 这 个 算法 本身 是 平方 量 级 的 时 间 复 杂 度 。 但 是 
("title": "Linux 27 周年 ， 这 27 件 相关 的 有 趣事 实 你 可 能 不 知道 "， "summary": "许多 人 认为 10 月 5 日 是 Linux 系统 的 周年 纪念 日 ， 因为 这 是 Linux 在 1931 
("title": "2018 年 最 受 欢迎 的 vs Code 扩展 插件 合集 ",， "summary": "VS Code 是 一 个 出 芭 的 代码 编辑 器 ， 但 真正 使 它 强 大 的 是 它 可 用 的 扩展 。 在 这 篇 文章 : 
("title": "Linux cgroups 命令 简介 "，"summary": "cgroups ros Groups) 是 Linux 内 核 提 供 的 一 种 机 和 制 ， 这 种 机 削 可 以 根据 需求 把 一 系列 系统 任务 及 
("title": "设计 微服 务 的 最 佳 实践 "，"zummary": "要 了 解 微 服务 是 什么 ， 你 必须 了 解 如 何 将 单 体 应 用 程序 ， 拆 解 为 独立 打包 和 部 署 的 微型 应 用 程序 。 本 文章 将 
("title": " 献 给 命令 行 重 度 用 户 的 一 组 实用 Bass HE", "summary": "今天 ， 我 个 然 发 现 了 一 组 适用 于 命令 行 重度 用 户 的 实用 EasH 脚本 ， 这 些 脚 本 被 称 为 E 
("title": "HEIS m HY 1 ^ Git iW", "summary": "在 今年 的 Stack Overflow 开发 者 调查 报告 中 ， 超 过 70% 的 开发 者 使 用 Git， 使 共 成 为 世界 上 使 用 
("title": "软件 的 未 来 是 无 码 "，"summary": "现今 ， 公司 大 多 喜欢 Quick Base, Mendix, 和 zudy 这 种 创新 性 产品 《工具 ) ， 他 们 的 运作 的 方式 部 是 类 似 的 ， 
("title": "目标 跟踪 算法 分 类 "， "summary": "本 文 对 目标 跟踪 算法 进行 了 分 类 。"，"publish date": "2018/08/19", "tag": ["IT 技 术 "]} 

("title": "而 癌 系 统管 理 员 的 Bash 指南 "， "summary": "使 Bash 工作 的 更 好 的 技巧 。 ", "publish date": "2018/08/19", "tag": {"IT 技 术 "]} 

("title": "从 Linux Wii socket 的 close", "summary": "笔者 一 直觉 得 如 果 能 知道 从 应 用 到 框架 再 到 操作 系统 的 每 一 处 代码 ， 是 一 件 Exciting 的 事情 。 " 
("title": "My5QL 多 版 本 并 发 控制 机 制 (Mvcc) - iiit i p v “summary” : "My5Q8L 包 版 本 并 发 控制 机 制 (Mvcc) -WER AS 作为 一 个 数据 库 爱 好 者 ， 自 己 动手 写 
("title": "redis 架构 演变 与 Redis-cluster 群集 访 写 FE", "summary": "Redis-cluster 是 近年 来 redis 架构 不 断 改 进 中 的 相对 较 好 的 Redis 高 可 用 方 
("title": "4 KAHHAR", "summary": "许多 Linux 用 户 认 为 在 终端 中 工作 太 复 杂 、 无 聊 ， 并 试图 逃避 它 。 ,但 这 里 有 个 改善 方法 一 四 款 终端 下 很 棒 t 
("title": "回归 树 的 原理 及 其 Python 实现 "， "summary": "我 们 用 人 话 而 不 是 大 段 的 数学 公式 ， 来 讲 讲 回归 树 是 怎么 一 回 事 。 p "publish date": "2018/08/ 
("title": "2 年 面试 900 多 位 工程 师 后 ， 我 总 结 了 这 些 经 验 , "summar "两 年 面试 超过 eoo 位 工程 师 ， 用 数据 说 话 ， 总 结 公司 面试 方式 及 建议 ， 对 工程 师 
("title": "Linux 内 核 cit 历史 记录 中 ， 最 大 最 奇怪 的 所 3 MA ERI HE", "summary": "我 们 通常 认为 git merges 有 两 个 父 节点 。Git 还 支持 章鱼 式 的 侣 : 
[("title": "三 款 Linux 下 的 Git E "t, "summary" ; "了 解 这 三 个 Git 图 形 客户 端 工具 如 何 增 强 你 的 并 发 流程 。 ", "publish date": "2018/08/06", 
("title": "Linux 下 cut 命令 的 4 个 基础 实 用 的 示例 "， "summary": "在 本 文中 ， 我 将 解释 linux F cut 命令 的 4 个 本 质 且 实用 的 例子 ， 有 时 这 些 例子 将 1 
("title": "推荐 系统 概述 "， b iL, "许多 人 把 推荐 系统 视 为 一 种 神秘 的 存在 ， 他 们 觉得 推荐 系统 俱 季 知道 我 们 的 想法 是 什么 ， 比如 ; 视频 网 站 向 我 们 推 
f"ritla"- WMoasnT IEA A D SUM "ommaror: PAT c9 M3ap sit Eee 1o (4e nés A (e. Mi BUS NA Hy att He EA mm EAS VELO Ua vri A MA. ARRE GG F arae z e u M 


51 使 用 JSON 保存 数据 


5.3 下载 文 件 和 图 片 


在 使 用 爬虫 获取 数据 时 ， 有 时 不 仅 要 抓 取 “字符 串 ”， 还 要 进行 图 片 和 文件 的 获取 。 比 如 我 
们 抓 取 租房 信息 时 , 不 仅 要 抓 取 地 段 、 租 金 等 信息 , 同时 要 把 房屋 图 片 一 起 抓 下 来 。 针 对 这 些 情况 ， 
Scrapy 提供 了 一 些 可 重用 的 Item Pipeline。 这 些 管道 有 一 些 共 同 的 方法 和 结构 ， 通 常 叫 作 Media 
Pipelines， 而 我 们 最 常用 的 就 是 FilesPipeline 和 ImagesPipeline， 分 别 用 于 下 载 文 件 和 图 片 。 这 两 种 
管道 都 包含 以 下 特性 : 


e 避免 重复 下 载 最 近 下 载 过 的 数据 。 
e 指定 存储 的 位 置 ， 可 使 用 本 地 文件 系统 或 者 云端 存储 。 
同时 ，ImagesPipeline 还 有 一 些 额 外 特性 : 


e 将 下 载 的 图 片 转换 成 通用 的 JPG 格式 和 RGB 模式 。 
e 为 下 载 的 图 片 生成 缩 略 图 。 
e 检查 图 片 的 宽 / 高 ， 确 保 能 够 满足 最 小 要 求 。 


管道 同时 会 为 计划 中 下 载 的 文件 URL 保 存 一 个 内 部 队列 ,与 包含 同样 文件 的 Response 相关 联 ， 
从 而 避免 重复 下 载 几 个 Item 共用 的 图 片 。 
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5.3.1 文件 管道 


在 爬虫 项 目 中 ， 使 用 文件 管道 的 工作 流程 如 下 : 


(1) 在 爬虫 中 ， 抓 取 到 Item 并 把 期 望 的 URL 放 入 file urls 内 。 

(2) AJE n 93k [elf] Item 进入 Item Pipeline 内 。 

(3) 当 Item 进入 FilesPipeline Hf, file urls 内 的 URL 将 被 Scrapy 内 置 的 调度 器 和 下 载 器 安 
排 下 载 ， 这 就 是 说 ， 调 度 器 和 下 载 器 中 间 件 是 可 以 重复 使 用 的 。 如 果 是 更 高 的 优先 级 ， 那 么 这 些 
URL 会 在 抓 取 其 他 页 面 之 前 被 处 理 。 在 这 个 管道 内 的 Item 会 保持 锁定 状态 ， 直 到 文件 下 载 完 成 或 
因 其 他 原因 下 载 失 败 。 

(4) 当 文 件 下 载 完 成 之 后 ， 下 载 的 结果 将 会 填充 到 fiels 字段 中 。 这 个 字段 是 由 dict 类 型 数据 
组 成 的 列表 ， 包 含 下 载 路 径 、 源 地 址 〈 从 file urls 中 获取 ) 、 图 片 校 验 码 (checksum) . files 字段 
中 文件 的 顺序 与 file urls 文件 URL 顺序 保持 一 致 。 如 果 下 载 失败 ， 就 会 记录 错误 信息 ， 文 件 并 不 
会 出 现在 files 字段 中 。 

【示例 5-2] 清楚 文件 下 载 流程 之 后 ， 下 面 以 抓 取 深圳 市 人 力 资 源 和 社会 保障 局 下 载 中 心 人 才 
引进 Chttp://hrss.sz.gov.cn/wsbs/xzzx/rcyj/) 专栏 页 面 中 的 第 一 页 文件 为 例 〈 如 图 5.2 所 示 ) ， 看 一 
下 如 何 使 用 FilesPipeline。 


Es 人 才 引 进 


。2017 年 人 才 引 进 长 理 机 构 名 单 


。 外 国 专家 来 深 工 作 申请 报告 


IFES 
O ERE iden: 3a 
。 Yes i ULT PUT RE SHE 2 ESTA 
外国 文教 专 宗 或 外 竺 专业 人 员 推荐 人 0 i 
。 单位 情况 附 表 — 

a SIRDARE 
Inapt(R. MAI. WIR RAS RA 
.ASUEREQBER —— 00 5 5 5 5 


HiHi] 
HEZE 
Adis 
am 
SAAR PNA 
drei mS 
zh EE 


(E miren 
52 文件 下 载 
(1) 创建 项 目 : 


scrapy startproject filedownload 


(2) 创建 爬虫 : 
scrapy genspider getfile hrss.sz.gov.cn 
(3) Æ items.py 中 ,要 为 Item 添加 两 个 字段 ， 分 别 是 文件 URL 字段 和 文件 下 载 结果 信息 字段 : 


DI $ —-*— coding: uLt B -*- 
02 


03 
04 
05 
06 
07 
08 
09 
10 
11 
27 
13 
14 
T3 
16 
LJ 
18 
19 
20 
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i Define here the models for your scraped items 

# 

# See documentation in: 

# https://doc.scrapy.org/en/latest/topics/items.html 


import scrapy 


class DownloadfileItem(scrapy.Item): 
# define the fields for your item here like: 
# 文件 名 称 
file name - scrapy.Field() 
# 发 布 时 间 
release date = scrapy.Field() 
# 文件 URL 
file urls = scrapy.Field() 
# 文件 结果 信息 
files = scrapy.Field() 


(4) 在 settings.py [I] ITEM PIPELINE 中 添加 FilesPipeline: 


01 
02 
03 
04 
05 


i Configure item pipelines 
# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html 
ITEM PIPELINES = { 

'scrapy.pipelines.files.FilesPipeline':1, 


} 


(5) 在 settings.py 中 设置 文件 下 载 的 路 径 、 文 件 URL 对 应 的 Item 字段 、 文 件 结果 信息 对 应 
的 Item 字段 : 
FILES STORE = 'D:\\Scrapy\\downloadfiles' 


FILES URLS FIELD - 'file urls' 
FILES RESULT FIELD = 'files' 


(60 设置 文件 存储 之 后 ， 编 写 息 虫 ，spiders/getfile.py 内 容 如 下 : 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
11 
12 


P —*— coding: ute B -*- 
import scrapy 
from downloadfile.items import DownloadfilelItem 


class GetfileSpider (scrapy.Spider): 
name — 'getfile' 
allowed domains - ['szhrss.gov.cn'] 


start urls - ['http://hrss.sz.gov.cn/wsbs/xzzx/rcyj/'] 


def parse(self, response): 


files HSL = response.css( .conRighBE text ull T15) 
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13 tor Eile in [ries iist: 

14 item = DownloadfileItem() 

19 item file name'] — file.c85[ a Tent ).extract fest i) 
16 item[" release date'] = file.css("'span::text ).extract First() 
17 # 由 于 获取 到 的 url 284"./201501/P020170328745500534334. doc" 
18 # 因此 需要 手动 调整 为 完成 的 url 格式 

19 url = File.css(' a::attr(href) ).extract first() 

20 * file urls 必须 是 1ist 形式 

ZI Eom file uris: = [response Uri ur 

22 yield item 

23 


CD 运行 候 虫 ， 部 分 结果 如 图 5.3 Hr. 


IERUS” Scraped from <200 1 


81267 /P820120720516513347957 .doc ' ], 


201207/P020120728516613347967 .doc ' } |, 


rom «200 http:/ 


01501195222 


图 5.3 文件 下 载运 行 结果 


(8) f£ D:\Scrapy\downloadfiles 文件 夹 中 会 自动 创建 full LHK, 其 中 下 载 文件 如 图 5.4 所 示 ， 
文件 名 是 根据 文件 URL 上 自动 生成 的 SHA1 哈 希 值 。 


EIE > AWE (D) > Scrapy > downloadfiles » full 
ZH À 
ME 2fdc3b32224fHf12d578f99735asb1d0889802zs92.doc 
M 3dcb5a28e57b57a8bf1d39c8643e109b1d869b27.doc 
ÚE Aca47a515005255602f082427871 be8a62074dc2.docx 
M 6f7e026a2862dcb05629e88ba61fa2413b6fbdc6.doc 
M Safbb58e5696c954ddeDeb5341ee89bb8360642c.doc 
ME 16da87{525bf707388d5659c9639654c9d9c2a8c.doc 
WE 20a07a92099acabd2ece5fc0929fe6adfd81d2bf.docx 
WE 47c22c43596c59523780a9a1fb89976d08d3fc78.docx 
[m]: 7258ccc9e688a5f0a09a73b7e24dí3efob44eb5b.doc 
MÈ a1íd77b8fe64e5cf5e2d051620d75447575bEb915.doc 
IM: a77a27339832da379bccOcO0b97fíba16cb4954e20.doc 
WE b18a4f4f&cclbf9534daB8fo96e 180ccBaa235b9b.doc 
ME c785228854cb22194205f6a7212adb5f3eBeBdae.doc 
ME e07ef07a44755e6fa8b58016d03e9b82b9f99fF14.doc 
ME £00b39625e0617407d1131b2d5b44d5b6df512d3.doc 


54 文件 下 载 保存 结果 
说 明 : SHAIL 是 安全 哈 希 算法 (Secure Hash Algorithm) ， 适 用 于 数字 签名 算法 。 
(9) 可 以 看 到 默认 存储 的 文件 名 无 法 分 辨 出 下 载 的 是 什么 文件 ， 这 时 我 们 就 需要 上 自 定 义 文件 
下 载 管道 ， 进 行 一 些 自 定 义 的 设置 。 修 改 pipelines.py， 添 加 自 定义 文件 管道 ， 内 容 如 下 : 
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01 from scrapy.pipelines.files import FilesPipeline 


02 from scrapy import Request 


03 

04 class DownloadfilePipeline (FilesPipeline): 

05 

06 + 修改 file path 方法 ， 使 用 提取 的 文件 名 保存 文件 

07 def file path(self, request, response-None, info-None): 

08 # 获取 到 Request 中 的 item 

09 item = request.meta['item'] 

10 # 文件 URL 路 径 的 最 后 部 分 是 文件 格式 

TI file type — request.url.spliE(. ) L] 

17 * 修改 使 用 item 中 保存 的 文件 名 作为 下 载 文件 的 文件 名 ， 文 件 格式 使 用 提取 到 的 
13 # 格 式 

14 file name - u'full/(0].(1)]'.format(item['file name'],file type) 
15 return file name 

16 

17 def get media requests(self, item, info): 

18 tar Erbe url :m stem] Erie geris T: 

19 # 为 request 带 上 meta 参数 ， 把 item 传递 过 去 

20 yield Request (file url,meta-['item':item]) 


(100 重新 运行 仆 虫 ， 下 载 到 的 文件 如 图 5.5 所 示 。 
WER » 本 地 磋 盘 (D: > Scrapy > downloadfiles > full 


名 称 


闸 ; 终止 劳动 合同 证 明 书 .doc 

À 外 国 专家 来 深 工作 申请 报告 .doc 

éA 外 国文 教 专 家 或 外 籍 专业 人 员 推荐 信 .docx 

闸 j 深圳 市 专科 学 校 及 以 下 教育 机 构 聘 请 外 国 专家 单位 资格 认可 申请 表 .doc 
$^ 商 调 函 .docx 

w 入 户 告知 书 .doc 


w) 人 事 档 宾 保管 权 审 核 表 .doc 

$5 人 才 引 进 业 务 立 户 证 式样 .docx 

m 关于 新 引进 人 才 享 受 租房 补贴 或 新 引进 人 才 享 受 租房 和 生活 补贴 的 温 声 提示 .doc 
w 单位 情况 附 表 .doc 

i 承诺 书 .doc 

wi 办 理学 业 生 介绍 信 、 招 调 工 、 调 二 通知 迁 失 证 明 申 请 表 .doc 

wÀ 2017 年 人 才 引 进 代理 机 构 名 单 .doc 

i: 2015 年 叶 学 回国 人 员 引 进 业 务 指南 .doc 

w 2015 年 度 人 才 引 进 业务 代理 机 构 ,doc 


55 修改 下 载 文 件 名 


5.3.2 图 片 管道 
图 片 管道 与 文件 管道 的 工作 流程 一 致 ， 不 同 的 是 资源 URL 存储 由 file urls 变更 为 image_urls， 
结果 存储 字段 由 files 变 为 inages， 上 有 具体 流程 如 下 : 


(1) 在 爬虫 中 ， 抓 取 到 Item 并 把 期 望 的 URL 放 入 image urls 内 。 
(2) MEE AREH Item 进入 Item Pipeline 内 。 
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(3) 当 Item 进入 FilesPipeline 时 ，image urls 内 的 URL 将 被 Scrapy 内 置 的 调度 器 和 下 载 器 
安排 下 载 ， 这 就 是 说 ， 调 度 器 和 下 载 器 中 间 件 是 可 以 重复 使 用 的 。 如 果 是 更 高 的 优先 级 ， 那 么 这 些 
URL 会 在 抓 取 其 他 页 面 之 前 被 处 理 。 在 这 个 管道 内 的 Item 会 保持 锁定 状态 ， 直 到 文件 下 载 完成 或 
因 其 他 原因 下 载 失 败 。 


当 文 件 下 载 完 成 之 后 ， 下 载 的 结果 将 会 填充 到 images 字段 中 。 这 个 字段 是 由 diet 类 型 数据 组 
成 的 列表 ， 包 含 下 载 路 人 笃 、 源 地 址 (从 image urls 中 获取 ) 、 图 片 校 验 码 (checksum) . images 
字段 中 文件 的 顺序 与 image_urls 文件 URL 顺序 保持 一 致 。 如 果 下 载 失 败 ， 就 会 记录 错误 信息 ， 文 
件 并 不 会 出 现在 images 字段 中 。 

【示例 5-4】 通 过 抓 取 起 点 小 说 网 完 本 小 说 Chttps://www.qidian.com/finish) 的 简介 与 封面 图 
片 来 做 实例 演示 

(2 创建 项 目 : 

»»»scrapy startproject downloadimage 

(2) 创建 爬虫 ; 


>>>cd downloadimage 
»»»scrapy genspider getimage qidian.com 


(3) 创建 项 目 之 后 ， 在 items.py 文件 中 添加 图 片 下 载 对 应 的 字段 : 


DICT -—-*—  Éoding: ntf-g8 = 

02 

03 # Define here the models for your scraped items 
04 # See documentation in: 


05 # https://doc.scrapy.org/en/latest/topics/items.html 


06 

07 import scrapy 

08 

09 

10 class ImgpipelineItem(scrapy.Item): 
zT # define the fields for your item here like: 
17 # name = scrapy.Field() 

13 # 小 说 名 称 

14 title = scrapy.Field() 

15 # 小 说 作者 

16 author = scrapy.Field() 

17 # 小 说 类 型 

18 type = scrapy.Field() 

19 # 图 片 URL 

20 image urls = scrapy.Field() 


21 # 图 片 结果 信息 


22 images = scrapy.Field() 
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(4) 在 settings.py 的 ITEM_PIPELINE 中 添加 ImagesPipeline 及 自 定义 的 管道 信息 : 


# Configure item pipelines 
# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html 
ITEM PIPELINES = ( 
'imgpipeline.pipelines.ImgpipelinePipeline': 300, 
'scrapy.pipeline.images.ImagesPipeline':1 


} 


(5) 在 settings.py 中 设置 文件 下 载 的 路 径 、 图 片 URL 对 应 的 Item 字段 、 图 片 结果 信息 对 应 
的 Item 字段 ， 另 外 还 可 以 设置 图 片 的 缩 略图 : 


IMAGES STORE = 'D:\\scrapy\\imgdownload' 
IMAGES URLS FIELD = 'image urls' 
IMAGES RESULT FIELD = 'images' 
IMAGES THUMBS = { 
“small: : (80,80), 
"burg" : (306, 300] 
} 


(6) 编写 自 定义 管道 信息 ， 用 于 保存 小 说 信息 至 JSON 文件 ，pipelines.py 内 容 如 下 : 


Woden H —— 


02 

03 4 Define your item pipelines here 

04 * 

05 + Don't forget to add your pipeline to the ITEM PIPELINES setting 
06 4 See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html 
07 import json 

08 


09 class DownloadimagePipeline (object): 


10 # 将 小 说 信息 保存 为 json 文件 


11 der open Apr oer (Sele Spider): 

TA self.file = open ('qidian.json','w') 
13 

14 det close spider([selr,spier): 

T5 self.file.close() 

16 

INC def process item(self, item, spider): 
18 # 与 入 文件 

19 line = json.dumps (dict(item), ensure ascii False) + "An" 
20 self.file.write(line) 

21 return item 
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CI) 编写 爬虫 文件 ， 抓 取 小 说 信息 ，getimg.py 内 容 如 下 : 


0l f = coding: uLt-8 -*- 
02 import scrapy 


03 from imgpipeline.items import ImgpipelineItem 


04 
05 


06 class GetimgSpider (scrapy.Spider): 


07 
08 
09 
10 
11 
£2 
13 
14 
z5 
16 
17 


18 


name = 'getimg' 
allowed domains - ['qidian.com'] 
start urls = ['https://www.qidian.com/finish'] 


def parse(self, response): 
for novel in response.css(".all-img-list » li"): 
item = ImgpipelineItem() 
item["title"] = novel.xpath(' .//h"8/a/text(] )-exEract first() 


item author: | — nowvel.css( .nadme:-Lextc').-exLract Lirst 4 
TEEM YPES ] | — NONE CSS cem 4 a: -LexbE FSEXEPACE C EEESELQ 
item['image urls'] = ['https:' + novel.xpath('.//img/8src'). 


extract E4FSETQU] 
yield item 


(8) 运行 仆 虫 ， 会 生成 两 个 文件 夹 : ll 和 thumbs. thumbs 中 有 big 及 small 文件 夹 ， 保 存 
的 图 片 如 图 5.6 所 示 。 


此 电脑 ， 


本 地 磁盘 [D:) > Scrapy > imgdownload > 


1d9481a260cd974f Tcc9fd76d0322caaa B8dl6b55a375af4e4 60a478fce423e1140 71f7cd19614a74d1 B6calfffoeb90b73f 983e9e451173b805 
7Tf79a8652d2a6b50f3 40acdDee9cc49456 236980bfc2e1e2cea 67f10ba3991b1f720 5f47b9b0c658457d bee058cfa50717103 71b30f5abe285472 
6da99a4.jpg ed916d5.jpg 5eea77fjpg dcda66.jpg b9df29ae.jpg 0d93ecjpg c795306cjpg 


314c851c48cc4456 834f9996be0c256f2 870fea7193c928c2b 80805f443edc9001 688609d1851c47d9 2060606fa4457e60c a2cf14be6c14f2895 
92039d4f5ecd5bb6 c6a74dccecf3cdf205 db6d4ab42cc36fed €78522aa7915aa00 1a7a405069b4720a 7a8a338f612d6acff 439dbb9304bbf4fc 
11996604 jp3 487802 4p3 bc385a0Jpg de713438jpg 802ee2d8.jpg da0618.jpg a2a8bd8.jpg 


hh 


Te 
EU 
A 


aB8d3cl9fcB79ea380 ab57ed8c7420bc91 b8190398c0D9fdBcc e4304cle88aeBe70 f0bc432426f78fad4 fB8cdce9d7287b510c 
f75703bf10586d2c 85223bd1eb688733 6634077cabb4320e d4fScd4323eeb3be 53a3f2108c759134aa d291151845805fdb 
b5bí8?7.jpg 77183dfajpg dfea379jpg d3fde73e.jpg 3d69b7.jpg bb960056.jpg 


5.6 图 片 下 载 结果 
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(9) 与 文件 下 载 一 样 ， 默 认 图 片 名 没有 可 读 性 ， 读 者 可 仿照 上 一 节 中 的 上 自 定 义 文 件 管道 
pipeline.py 来 自 定 义 图 片 下 载 管道 ， 修 改 下 载 图 片 名 。 


5.4 数据 库存 储 MySQL 


5.3 节 中 讲 到 的 信息 存储 都 是 存储 到 本 地 文件 中 ， 比 如 JSON, TXT 等 。 实 际 运用 中 ， 保 存 到 
数据 库 中 显然 是 一 个 更 好 的 选择 ， 数 据 安全 、 便 于 维护 。 本 节 介 绍 MySQL 数据 库 的 基本 用 法 ， 以 
及 如 何 使 用 Python 对 其 进行 相应 的 管理 操作 。 

MySQL 原本 是 一 个 开放 源 代码 的 关系 数据 库 管 理 系统 (DBMS) ) ， 原 开发 者 为 瑞典 的 MySQL 
AB 公司 ， 经 过 一 些 收 购 ， 现 在 MySQL 成 为 Oracle 旗下 的 产品 。MySQL 由 于 性 能 高 、 成 本 低 、 
可 靠 性 好 , 己 经 成 为 最 流行 的 开源 数据 库 , 被 广泛 地 应 用 在 互联 网 上 的 中 小 型 网 站 中 ， 是 最 流行 的 
关系 型 数据 库 管 理 系 统 。 本 节 讲解 MySQL 的 一 些 基本 操作 。 


5.4.1 ft Ubuntu 上 安装 MySQL 


在 Ubuntu 上 安装 MySQL 的 步 又 如 下 : 
€D) +EH wget 下载 MySQL 存储 库 软件 包 : 
wget -c https://dev.mysql.com/get/mysql-apt-config 0.8.10-1 all.deb 
ED 进入 文件 下 载 的 目录 ， 然 后 使 用 以 下 dpkg 命令 安装 下 载 好 的 MySQL 存储 库 软件 包 : 
sudo dpkg -i mysql-apt-config 0.8.10-1 all.deb 


在 软件 包 安 装 过 程 中 ， 系 统 会 提示 选择 MySQL 服务 器 版 本 和 其 他 组 件 ， 例 如 群集 、 共 享 客户 
端 库 或 配置 要 安装 MySQL 的 工作 台 。 默 认 MySQL 服务 器 版 本 mysql-8.0 的 源 将 被 自动 选中 ， 我 
们 只 需 最 终 确定 就 可 以 完成 发 行 包 的 配置 和 安装 ， 如 图 5.7 所 示 。 


Configuring mysql-apt-config 
MySQL APT Repo features MySQL Server along with a variety of MySQL components. You 
may select the appropriate product to choose the version that you wish to receive. 


Once you are satisfied with the configuration then select last option 'Ok' to save 
the configuration, then run 'apt-get update' to load package list. Advanced users 
can always change the configurations later, depending on their own needs. 


Which MySQL product do you wish to configure? 


MySQL Server 8 Cluster (Currently selected: mysql-8.0) 
MySQL Tools & Connectors (Currently selected: Enabled) 


zE Preview cea DE selected: ES 


<Ok> 


5.7 MySQL 版 本 选择 
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€D 在 Ubuntu 18.04 中 安装 MySQL 8 服务 器 。 
先 更 新 最 新 的 软件 包 信息 : 


sudo apt update 

然后 运行 如 下 命令 安装 MySQL 8 社区 服务 器 、 客 户 端 和 数据 库 公 用 文件 : 

sudo apt-get install mysql-server 

安装 过 程 中 将 会 要 求 为 MySQL 8 服务 器 的 root 设置 用 户 输入 密码 ， 在 输入 和 再 次 验证 后 按 

回 车 键 继续 。 注 意 ， 输 入 完 密码 之 后 会 进入 选择 默认 密码 加 密 方式 的 页 面 ， 如 图 5.8 所 示 ， 

此 时 要 选择 Use legacy Authentication Method (Retain MySql 5.x Compatibility) 选 项 , 这 是 由 于 

Ubuntul8.04 的 终端 不 支持 第 一 种 加 密 方式 ， 如 果 选 择 第 一 种 ， 就 会 登录 不 上 去 。 
toor&btoor-virtual-machine: ~ 


Package configuration 


Configuring mysql-community-server 
Select default authentication plugin 


5.8. 密码 加 密 方式 选择 


2404 安装 完成 之 后 ， 使 用 登录 命令 mysql -uroot -p 登录 数据 库 ， 如 图 5.9 所 示 。 


toor@toor-virtual-machine: ~ 
e Edit View Search Terminal Help 
Setting up mysql-community-server (8.8.12-1ubuntu18.04) . 
alternatives: using /etc/mysql/mysql.cnf to provide /etc/mysql/my.cn 


i-user .target.wants/mysql.service => / 


(8.0.12-1ubuntu18.04) 


affiliates. Other ames ma 


owners., 


图 5.9 登录 数据 库 


5.4.2 在 Windows 上 安装 MySQL 


在 Windows 上 安装 MySQL 的 步骤 如 下 : 
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ED) 进入 社区 版 下 载 页 面 (https://dev.mysql.com/downloads/windows/installer/8.0.html) ， 下 载 安 装 
程序 mysql-installer-community-8.0.12.0.msi。 


ED 双击 运行 安装 程序 ， 安 装 时 选择 Developer Default， 单 击 Next 按钮 进行 下 一 步 ， 如 图 5.10 
所 示 。 


E] MySQL Installer 
NN 
MySQL. Installer Choosing a Setup Type 
Adding Community 
Please select the Setup Type that suits your use cese. 


(€) Developer Default Setup Type Descripbon 
Installs all products needed for Installs the MySQL Server and the tools ^ 
MySQL development purposes. required for MySQL application development. 
This is useful if you intend to develop 
applications for an existing server. 


Q Server only 


Installs only the MySQL Server This Setup Type includes: 
product. 
* MySQL Server 
O Client only 
* 
Installs only the MySQL Client MySQL. Shell 


: The new MySQL client application to manage 
ducts, without . 
"m 5 —" MySQL Servers and InnoDB cluster instances. 


O Fuit * MySQL Router 
Installs all included MySQL High availability router daemon for InnoDB 
products and features, cluster setups to be installed on application 
nodes. 


Oc * MySQL Workbench 


Manually select the products that The GU! application to develop for and 
should be installed on the manage the server. 


system. 
* MySQL for Excel 


5.10 选择 数据 库 类 型 


ED 下 一 步 检查 依赖 程序 ， 如 果 缺 少 安装 程序 ， 那 么 可 以 单 击 Execute 按钮 安装 依赖 程序 ， 单 击 
Next 按钮 进行 下 一 步 ， 如 图 5.11 所 示 。 


MySQL Installer 


T 


AN 
MySQL. Installer Check Requirements 
Adding Community 


The following products have failing requirements. MySQL Installer will attempt to resolve 
some ofthis automatically. Requirements marked as manual cannot be resolved 
automatically. Click on those iterns to try and resolve them manually. 


For Product Requirement 
O MySQL Server 8.0.12 Microsoft Visual C++ 2015 Redistrib... 
O MySQL Workbench 8.0.12 Microsoft Visual C++ 2015 Redistrib... 
O MySQL for Visual Studio 1.2.8 Visual Studio version 2012, 2013, 201... Manual 
O MySQL Shell 8.0.12 Microsoft Visual C++ 2015 Redistrib... 
O MySQL Router 8.0.12 Microsoft Visual C++ 2015 Redistrib... 
O Connector/ODBC 8.0.12 Microsoft Visual C++ 2015 Redistrib... 
O Connector/C++ 8.0.12 Microsoft Visual C++ 2015 Redistrib... 


< 


图 5.11 安装 依赖 程序 
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EaD) 之 后 进行 安装 ， 主 程序 安装 完成 后 会 进行 账号 配置 ， 记 住 账号 和 密码 ， 单 击 Next 按钮 进行 
下 一 步 ， 如 图 5.12 所 示 。 


[5] MySQL Installer 


~ 


VN 
MySQL. Installer Accounts and Roles 
MySQL Server 8.0.12 


Root Account Password 
Enter the password for the root account. Please remember to store this password in a secure 
place. 


MySQL Root Password: [LIII 


Repeat Password: [eee] 


Password strength: Weak 


Accounts and Roles 


MySQL User Accounts 


Create MySQL user accounts for your users and applications. Assign a role to the user that 
consists of a set of privileges 


MySQL Username Host User Role Add User 


Cancel 


图 5.12 设置 管理 员 密 码 
eih) 之 后 只 需 默 认 单 击 Next 按钮 ， 即 可 安装 完成 ，MySQL 进程 会 自动 启动 。 以 管理 员 身份 打 
开 命 令 行 窗口 ， 可 以 使 用 如 下 命令 进行 控制 ， 如 图 5.13 所 示 。 


net start mysq180 局 动 MySQL 服务 
net stop mysq180 停止 MySsQL 服务 


5.13 ”启动 关闭 MySQL 服务 


桌面 端 安装 程序 很 好 的 一 点 是 带 有 便捷 的 管理 程序 Workbench. 打开 Workbench, 输入 数据 库 
密码 即 可 连接 管理 数据 库 ， 使 用 起 来 很 方便 ， 如 图 5.14 所 示 。 
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Fila Edit Viev Database Tools — Scripting Kelp 


Welcome to MySQL Workbench 


ix Connect to MySQL Server : 
bws you to design, 


MySQL Workbench is th 


create and browse yo Please enter password for the data as well as 
following service: 
nd data from other 
Service: Mysd Dbcabost: 3306 
* root 


pasos 7 


C Save password in vault 
id PForums > 


Browse Documen 
Corcel 


& Filter connections 


MySQL Connections © © 


Local instance MySQL Rou... 


root 


localhost;:3306 


5.14 MySQL 1$ Workbench 


a Commands end with ; or ^g 
ection id is 12 
8. 0. 12 MySQL Community Server - GPL 
Copyright ic) 2000, 2018, Oracle and/or its affiliates. All rights reserved. 
)racle is a registered trademark of Oracle Corporation and/or its 
affiliates. Üther names may be trademarks of their respective 
owners. 


' to clear the current input statement. 


Ah for help. Type 'X 


5.15 MySQL 终端 


5.4.3 MySQL 基础 


安装 MySQL 之 后 ， 下 面 介 绍 MySQL 的 基础 知识 。 

1. MySQL 数据 类 型 

MySQL 文 持 多 种 类 型 ， 大 致 可 以 分 为 3 类 : 数值 、 日 期 /时 间 和 字符 串 〈 字 符 ) 类 型 ， 每 种 类 
型 都 有 不 同 的 范围 与 使 用 方法 。 


(1) 数值 类 型 
包括 严格 数值 数据 类 型 (TINYINT 、MEDIUMINT BIGINT, INTEGER, SMALLINT, DECIMAL 


126 | Scrapy B&B rb Sc sx 


fI NUMERIC) 和 近似 数值 数据 类 型 (FLOAT. REAL fil DOUBLE PRECISION) ， 汇 总 如 表 5-1 
所 示 。 
35-1 ”MySQL 数据 类 型 


类 型 含义 用 途 
TI ERR 
SMALLINT (-32 768, 32767) 大 整数 值 


MEDIUMINT (-8388 608, 8388 607) 大 整数 值 


INT 或 INTEGER | 4 人 (-2 147 483 648，2 147 483 647) 大 整数 值 


BIGINT 区 233 372 036 854 775 808, 9 223 372 036 854 775 | 极 大 整数 值 


FLOAT(M.D) x M 为 总 个 数 ，D 为 小 数位 单 精度 浮 点 数值 
DOUBLE(M.D) 双 精度 浮 点 型 ，M 为 总 个 数 ，D 为 小 数位 双 精度 浮 点 数值 


DECIMAL(M.D) | M>D, XMH, | M 是 数字 的 最 大 数 ，M<65, D 是 小 数 点 右 侧 数字 | 小 数值 
否则 为 D+2 的 数目 ，D<30，D<M 


(2) 日 期 /时 间 类 型 

表示 时 间 值 的 日 期 和 时 间 类 型 为 DATETIME、DATE、TIMESTAMP、TIME 和 YEAR。 每 个 
时 间 类 型 有 一 个 有 效 值 范 围 和 一 个 “ 零 ” 值 ， 当 指定 不 合法 的 MySQL 不 能 表示 的 值 时 使 用 “ 零 ” 
值 ， 汇 总 如 表 5-2 所 示 。 


表 5-2 日 期 时 间 类 型 


类 型 格式 用 途 

DATE YYYY-MM-DD 日 期 值 

TIME HH:MM:SS 时 间 值 或 持续 时 间 
mw poem [sea 
DAEHME [s  [WYYvuRDDTRMMSS | 06 WERT 


TIMESTAMP od 混合 日 期 和 时 间 值 ， 时 间 戳 ， 自 动 存储 记录 修改 
的 时 间 


(3) SAP (字符 ) 类 型 
字符 串 类 型 指 CHAR、VARCHAR、BINARY、VARBINARY 、BLOB、TEXT、ENUM 和 SET, 
汇总 如 表 5-3 所 示 。 


X53 “字符 串 类 型 
类 型 大 小 用 途 


cras RETE 
VARGAR KEFAS 
TINYBLOB 不 超过 255 个 字符 的 二 进 制 字 符 串 
Tr MIETEN 
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GE) 
am Ri 
BLOB 二 进 制 形 式 的 长 文本 数据 
ux eT 
MEDIUMBLOB 二 进 制 形 式 的 中 等 长 度 文本 数据 
MEDIUMTEXT 中 等 长 度 文本 数据 
LONGBLOB 二 进 制 形式 的 极 大 文本 数据 
ENG CST 


2. MySQL 关键 字 
MySQL 含有 一 些 和 数据 有 关 的 关键 字 ， 如 表 5-4 所 示 。 
表 5-4 ”MySQL 关键 字 


关键 字 含义 

NULL 可 包含 NULL 值 

NOT NULL 不 可 包含 NULL 值 

PRIMARY KEY 主键 

DEFAULT 默认 值 

UNSIGNED 无 符号 类 型 

AUTO INCREMENT 自动 递增 ， 适 用 于 整数 类 型 
CHARCTER SET 指定 字符 集 ， 如 UIF-8、GBK 等 


5.4.4 MySQL 基本 操作 


尽管 使 用 Workbench 很 方便 做 MySQL 的 管理 操作 ， 但 熟悉 常用 的 命令 仍 是 必 不 可 少 的 。 下 
面 对 数 据 库 的 常用 操作 命令 进行 介绍 。 

1. 创建 与 删除 数据 库 

使 用 create database database name 指定 数据 库 名 称 ， 创 建 一 个 数据 库 ， 创 建成 功 后 将 返回 一 
条 成 功 信 BH. 


mysql» create database test; 
Query OK, 1 row affected (0.05 sec) 


创建 成 功 后 ， 硅 想 使 用 指定 的 数据 库 ， 则 需要 先 选择 后 才能 使 用 ， 使 用 use database name fr 
令 进 行 选择 : 

mysql> use test; 

Database changed 


右 想 删除 数据 库 ， 则 使 用 drop database database name 命令 进行 删除 : 
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mysql» drop database test; 
Query OK, 0 rows affected (0.06 sec) 


2. 创建 与 删除 表 
选择 数据 库 之 后 ， 在 此 数据 库 中 创建 表 ， 使 用 create table table name 命令 : 


mysql» create table book( 


-» id int unsigned not null auto increment primary key, 
-» name char(50) not null, 
—» price rFloat(5,7) not null 
EP S. 
Query OK, 0 rows affected (0.17 sec) 


也 可 以 将 建 表 语 句 保存 为 create book.sql 文件 ， 执 行 建 表 操 作 ， 如 将 create table.sql 文件 保存 


在 C:\sqlfiles 中 : 


mysql» source c:NsqlfilesNcreate book.sql 
Query OK, 0 rows affected (0.09 sec) 


使 用 show tables 来 查看 数据 库 中 的 表 : 


Query OK, 0 rows affected (0.09 sec) 
mysql» show tables; 


| book | 


2 rows in set (0.02 sec) 

3. 数据 基本 操作 

所 有 数据 的 操作 归根 到 底 就 是 增 、 删 、 改 、 查 4 种 类 型 。 我们 已 经 在 test 数据 库 中 创建 了 book 
下 面 对 这 张 表 进行 数据 操作 。 

插入 数据 使 用 insert into table name values(...) 命 令 : 


mysql» insert into book values (null,'python',45.56); 
Query OK, 1 row affected (0.04 sec) 


插入 数据 之 后 ， 使 用 select column name from table name [where conditions]: 


mysql» select * from book; 


二 一 一 一 一 十 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 十 
| id | name | price | 
二 一 一 一 一 十 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 + 
| 1| python | 45.56 | 
二 一 一 一 一 十 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 十 


1 row in set (0.00 sec) 


mysql» select price from book; 
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1 row in set (0.00 sec) 


更 新 字段 值 使 用 update table name set column name = value where conditions, Wn] 5.16 所 示 。 


5.16 更 新 数据 
删除 数据 使 用 delete from table name where conditions， 如 图 5.17 所 示 。 


mysql» delete from book where name=’ python’ ; 
Query OK, 1 row affected !0.01 sec) 


mysql? m 


5.17 删除 数据 


使 用 alter table name action 对 表 结 构 进 行 相关 操作 ， 如 表 5-5 所 示 。 
表 5-5 alter 命 令 


命令 说 明 

alter table book add publisher varchar(50): 在 ook 表 中 自动 添加 一 列 publisher 到 最 后 

alter table book drop publisher: 在 book 表 中 删除 publisher 列 

alter table book change name title char(S0) 在 book 表 中 将 name 列 名 更 名 为 title， 数 据 类 型 更 改 为 char(50) 
alter table book price double(6,2) 在 book 表 中 将 price 类 数据 类 型 更 改 为 double(6.2) 

alter table book rename salebook 将 book 表 更 名 为 Salebook 


IR] 
Un 
i 
oo 
Sn 
[] 
YY 
Z 
o 


如 果 想 删除 整 张 表 ， 那 么 可 以 使 用 drop table table name 命令， 如 


mysql» drop table book2 


5.8 MEK 


5.4.5 Python 操作 MySQL 


Python 中 使 用 pymysql 库 来 操作 MySQL， 先 使 用 pip 进行 安装 ， 命 令 如 下 : 
pip install pymysql 

安装 完成 之 后 ， 导 入 模块 : 

>>> import pymysql 
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连接 数据 库 使 用 connnect 方法 : 


>>> db = pymysql.connect(host-'localhost',port-3306,user-'root', 
password-'root',database-'test') 


连接 之 后 ， 使 用 cursor0 方 法 创建 游标 对 象 : 

»»» cursor - db.cursor() 

游标 对 象 中 常用 的 方法 如 下 。 

e execute0: 执行 SQL i&4], 

e executemany(): 执行 多 条 SQL i& 4], 

e fetchall): 取出 结果 中 所 有 数据 。 

efetchmany0O: 取出 结果 中 多 条 记录 。 

e fetchone(: 取出 结果 中 一 条 记录 ， 并 将 游标 指向 下 一 条 记录 。 

e close): 关闭 游标 对 象 。 

前 面 已 经 连接 上 了 test 数据 库 ， 现 在 在 这 个 数据 库 中 对 上 面 的 方法 进行 讲解 。 

(1) 创建 products 表 ， 包 含 id. name. price. amount: 

225» create products - 'create table products ( id int not null auto increment 
primary key,name varchar(50) not null,price float(6,2) not null,amount int not 
nult)" 


>>> cursor.execute(create products) 
0 


(2) |n] products 表 中 插入 一 条 数据 : 


>>> 

>>> cursor.execute('insert into products (name,price,amount) values 
($s,$s,$9$s)', ('phone',1999.99,5)) 

ri 


回 products 表 中 插入 多 条 数据 : 

»»» datas-[('coffee',12.3,100), ('cup',9.9,60) , ('pen',25,180)] 

>>> cursor.executemany('insert into products (name,price,amount) values 
($s,9$s,9$s)',datas) 

3 

执行 完 上 面 两 条 插入 命令 ， 查 看 数据 库 表 数据 ， 发 现 products 表 中 数据 仍 为 室 ， 这 是 因为 这 
两 种 插入 数据 的 方法 不 会 立即 生效 ， 需 要 对 数据 库 对 象 进行 提交 操作 : 


»»»db.commit () 


(3) 查询 数据 : 


>>> cursor.execute('select * from products') 
4 

>>> cursor.fetchone() 

(1, 'phone', 1999.99, 5) 
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>>> cursor.execute('select * from products') 
4 


>>> cursor.fetchmany (2) 


[[I, "phone', 1999.99, 8). X *"coffoo', 17.343, TI00]) 
»»» cursor.fetchall() 


[Hi phnne-.; 1995 99. GJ] LIES C EDEEEE L7 32 EDIDI UE e a gu onn 
DpCHU Ton EIBUTM] 


>>> cursor.execute('select * from products') 


>>> result = cursor.fetchall() 
>>> [por «3p result: 


print (i) 


[I c phone | 1999-99. 5] 
(2, *'coLree", 17.3, I00j 
(3, "cup. 9.9, B0 

DL DH. 25.1 c1BH) 


(4) 修改 、 删 除数 据 : 


>>> cursor.execute('update products set price-$s where 
name-$s', (9999, 'phone')) 
| 


>>> cursor.execute('delete from products where name-$s',('coffee')) 
3 


修改 和 删除 数据 同样 需要 执行 commit 方法 才能 生效 。 使 用 完 数据 库 之 后 ， 要 进行 关闭 操作 ， 


»»»db.commit () 
»»»db.close() 


5.5 ”数据库 存储 MongoDB 


抓 取 的 数据 也 可 以 存储 在 MongoDB 数据 库 中 。MongoDB 是 由 C++ 语言 编写 的 ， 是 一 个 基于 
分 布 式 文件 存储 的 、NoSQL 类 型 的 开源 数据 库 系 统 。MongoDB 将 数据 存储 为 一 个 文档 ， 数 据 结 构 
由 键 值 (key=>value) 对 组 成 。MongoDB 文档 类 似 于 JSON 对 象 ， 字 段 值 可 以 包含 其 他 文档 、 数 
组 及 文档 数组 。MongoDB 有 很 多 优点 ， 比 如 : 

e 面向 文档 存储 ， 操 作 起 来 比较 简单 和 容易 。 

e 模式 自由 。 

e 支持 动态 查询 。 

e 支持 完全 索引 ， 包 含 内 部 对 象 。 

e 文件 存储 格式 为 BSON (一 种 JSON 的 扩展 ). 
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所 以 ，MongoDB 非常 适合 在 爬虫 开发 中 做 大 规模 数据 的 存储 。 


5.5.1 在 Ubuntu 上 安装 MongoDB 


在 Ubuntu 上 安装 和 配置 MongoDB 的 步骤 如 下 。 
€Z) £A MongoDB 密 钥 : 


sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 
9DA31620334BD75D9DCB49F368818C72E52529D4 


ED 创建 一 个 源 文件 ， 用 于 更 新 下 载 : 


echo "deb [ arch-amd64 ] https://repo.mongodb.org/apt/ubuntu 
bionic/mongodb-org/4.0 multiverse" | sudo tee 
/etc/apt/sources.list.d/mongodb-org-4.0.1list 


CET 更 新 源 : 


sudo apt-get update 


CX 安装 MongoDB: 


sudo apt-get install -y mongodb-org 


5.5.2 f£ Windows 上 安装 MongoDB 


在 Windows 上 安装 MongoDB 的 步骤 如 下 。 
ED) 下 载 社区 版 安装 程序 (https//www.mongodb.com/download-center/community), ， 如 图 5.19 所 示 。 


MongoDe Download Ce X 


o ín B htips//wvmrwmongodb.com/download-center/cornmmunity I Ts £. 2 


LOGIN Q Get MongoDB 出 
i = - — , 


mongo DB | FOR GIAN 
g 


Select the server you would like to run 


MongoDB Community Server 
FEATURE RICH. DEVELOPER READY. 


Version os 
* Release notes 
4.0.3 (current rsloass) x Windows 64-bit x64 
* Changelog 


ackage * All version binaries 


MSI , Download * Installation instructions 


* Download source (tgz) 


httpa- /fastdl mongodb org/win32/mongodb-win32-«O6 64-2008 plus-sel-4 0.3-signod ms " 
* Download source (zip) 


MongoDB offers both an Enterpnse and Community version of rts powerful non-relational database. MongoDB Enterprise is 
available as part of the MongoDB Enterprise Advanced subscription, which features the most comprehensive support far 
MongoDB and the best SLA, in addition to Ops Manager, Compass, and the Connector for BI 


MongoDB Enterprise comes with: 


图 5.19 F MongoDB 
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244402 下 载 完成 之 后 进行 安装 ， 这 里 选择 完全 安装 ， 如 图 5.20 所 示 。 
b MongoDB 4.0.3 2008R2Plus SSL (64 bit) Setup 


Choose Setup Type 
Choose the setup type that best suits your needs 


All program features will be installed. Requires the most disk space. 
Recommended for most users. 


Allows users to choose which program features will be installed and where 
they will be installed. Recommended for advanced users. 


5.20 安装 MongoDB 


下 一 步 进 入 配置 界面 。 这 里 选择 将 MongoDB 配置 为 服务 ,Run service as Network Service user 
表示 可 以 远程 连接 数据 库 ，Run service as a local or domain user 表示 可 以 设置 用 户 名 密码 验 
证 信息 进行 登录 。 若 有 需要 ， 则 可 以 进行 数据 库 路 径 与 日 志 路 径 的 配置 ， 如 图 5.21 所 示 。 
P MongoDB 4.0.3 2008R2Plus SSL (64 bit) Service Custo... — 
Service Configuration 
Specify optional settings to configure MongoDB as a service. 
[7] Install MongoD as a Service 
(€) Run service as Network Service user 
© Run service as a local or domain user: 
Account Domain: | 
Account Name: Monos | — 
Account Password: | | 
Service Name: MongoDB ^ 
Data Directory: [C:Program Files \MongoDB\Server\4.0\data} ————————— 
Log Directory: ^ [c:WrogramFiesWongoDBerverW.OVog| — 


[x7] wet | | Cancel 


5.21 MongoDB 安装 配置 


最 后 安装 页 面 上 会 提示 安装 MongoDB Compass， 这 是 一 个 数据 库 图 形 管理 页 面 ， 可 以 用 来 
方便 地 查看 数据 库 信息 。 如 果 网 络 环境 不 好 ， 可 以 取消 此 复 选 框 ， 不 然 安装 会 很 慢 ， 如 图 
5.22 所 示 。 


EI MongoDB 的 启动 文件 mongo exe 在 安装 目录 的 bin 文件 夹 下 ， 将 bin 文件 夹 目录 添加 至 系 
Zt path 路 径 下 ， 可 以 快速 启动 数据 库 ， 如 图 5.23 所 示 。 
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| Scrapy WEEER 


Ij MongoDB Compass 


Install MongoDB Compass 
MongoDB Compass is the offiGal graphical user interface for MongoDB. 


By checking below this installer will automatically download and install the 
latest version of MongoDB Compass on this machine. You can learn more 
about MongoDB Compass here: https: /f/www.mongodb.com/products/comp 


[~ Install MongoDB Compass 


x ea 


m um [Y] bsondump.exe 8/10/3 5:4 AS 60 
S iy InstallCompass.ps1 2018/10/3 6:12 Nindows Powe 2 
dis * libeay32.dll 2018/4/2 18:58 Uem m 2405 KB 
S xs & mongc exe 点 用 程 后 1 
=| ER mongod.cfg 2018/10/21 15:20 CFG 文 | 1 KB 
|. sqlfiles & mongod.exe 2018/10/3 6:12 ERER 31,679 
HN mongod.pdb 18/10/3 6-14 PDB 文件 147,25 
el mongodump.exe 2018/10/3 5:50 WERE 10,67 
L3 此 电脑 [E] mongoexport.exe 1/10/3 5:48 AS 


e 网 洛 


4 
mongofiles.exe 8/10/3 5.48 
mongcimport.exe 2018/10/3 5:49 


mongorestore.exe 


mongos.exe 


mongos.pdb 2018/10/3 6:02 PDB 文人 81.132 KB 
mongostat.exe 
mongotop.exe 


ssieay32.dll 


图 5.23 MongoDB 下 的 bin 路 径 


使 用 mongo 命令 局 动 MongoDB， 如 图 5.24 所 示 。 


BE ESER - mongo - Uu ^ 


mongodk Pa en 
n: sess '" t UUID( eft2a6a7rd-clcf-48e 


** VARNING: Access control is not enabled for the databa 
[initandlisten] ** Read and write ac S |; and configurat 


[initandli 


图 5.24 启动 MongoDB 
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5.5.3 MongoDB 基础 


MongoDB 属于 NoSQL 类 型 的 数据 库 ， 与 前 面 介 绍 的 MySQL 传统 关系 型 数据 库 有 很 大 差别 。 
在 MongoDB 中 ， 基 本 的 概念 是 文档 、 集 合 、 数 据 库 ， 表 5-6 对 两 者 做 了 对 比 。 


35-6 ”MongoDB 与 其 他 SQL 的 区 别 


SQL 概念 术语 MongoDB 概念 术语 说 明 
me mu 
table collection 数据 库 表 / 集 合 


row 数据 库 记 录 行 /文档 
column — 数据 字段 域 


= Es 

E EOE 
1. MongoDB 基本 结构 
(1) 文档 


MongoDB 的 基本 单元 是 文档 ， 一 个 文档 就 是 一 条 记录 ， 文 档 以 键 值 (key-value) 方式 存储 数 
据 ， 并 且 同 一 集合 中 的 文档 不 需要 有 相同 的 字段 ， 相 同 的 字段 也 可 以 有 不 同 的 数据 类 型 ， 这 是 
MongoDB 一 个 很 突出 的 特点 。 一 个 简单 的 文档 如 下 : 

iI"book":"bpython", "Drice": 435.99"*] 

需要 注意 的 是 : 

o 文档 的 键 值 对 是 有 序 的 ， 键 值 顺序 不 同 ， 文 档 不 同 。 下 面 两 个 文档 是 不 同 的 : 

("book":"python", "price":"45.99"] 

iI"price":"45.99". "bock":"pyLhon"] 

o 文档 区 分 类 型 和 大 小 写 ， 对 比 下 面 4 个 不 同 的 文档 : 


("book":"python", "price":45.99] 

-t"book":"python", "price" ":"45.99"j 
I'"PRICE":"45.99". "BODKR":"python"] 
I"price":"45.99", "book":"python"] 


e 文档 的 键 不 能 重复 ,一 个 文档 中 一 个 键 只 能 出 现 一 次 ,这 一 点 与 Python 中 的 字典 数据 类 型 一 致 。 
e 文档 的 键 除 了 少数 情况 外 ， 可 使 用 任意 UIF-8 字符 : 


+ BRESA ( 空 字符 ) ， 这 个 字符 用 来 表示 键 的 结 
e “” 和 “$” 为 系统 保留 ， 有 特别 的 意义 。 
e 以 下 画 线 “ ”开头 的 键 是 保留 的 ， 建 议 不 要 使 用 。 
(2) 集合 
集合 就 是 MongoDB 中 的 文档 组 ， 类 似 于 MySQL 中 的 数据 表 。 集 合 存在 于 数据 库 中 ， 集 合 没 


136 | Scrapy R£&[E FB Sc sx 


有 固定 的 结构 ,这 意味 着 我 们 对 集合 可 以 插入 不 同 格式 和 类 型 的 数据 。 比 如 ， 可 以 将 以 下 不 同 数 据 
结构 的 文档 插入 集合 
I"book" "python", 


("author":"Jim", 


"price":"45.99"]| 
"age" :45, 
集合 也 有 一 定 的 命名 规则 : 
e 集合 名 不 能 是 空 字符 串 " " 
o 集合 名 不 能 含有 \0 字符 ( 空 字符 )， 这 个 字符 表示 集合 名 的 结尾 。 
集合 名 不 能 以 “system.” 开 头 ， 这 是 为 系统 集合 保留 的 前 缓 。 
用 户 创建 的 集合 名 字 不 能 含有 保留 字符 。 有 些 驱动 程序 的 确 支 持 在 集合 名 里 面包 含 ， 这 是 因 
为 某 些 系统 生成 的 集合 中 包含 该 字符 。 除 非 我 们 要 访问 这 种 系统 创建 的 集合 ， 否 则 千 万 不 要 
在 名 字 里 出 现 $。 


(3) 数据 库 

一 个 MongoDB 中 可 以 建立 多 个 数据 库 ， 其 中 默认 数据 库 为 “db”， 该 数据 库存 储 在 data H 
x. MongoDB 的 单个 实例 可 以 容纳 多 个 独立 的 数据 库 ， 每 一 个 都 有 自己 的 集合 和 权限 ， 不 同 的 
数据 库 放 置 在 不 同 的 文件 中 。 使 用 “show dbs ”命令 可 以 显示 所 有 数据 库 ， 使 用 “db” 命 令 查 看 当 
前 使 用 的 数据 库 。 


"Wworks":[ "python", "java", "php"]) 


2. MongoDB 数据 类 型 
MongoDB 常用 的 数据 类 型 如 表 5-7 所 示 。 


表 5-7 MongoDB 数 据 类 型 


数据 类 型 描述 

String 字符 串 ， 存 储 数据 常用 的 数据 类 型 。 在 MongoDB 中 ，UTF-8 编码 的 字符 串 才 是 合法 的 

Integer 整 型 数值 ， 用 于 存储 数值 ， 根 据 采 用 的 服务 器 可 分 为 32 位 或 64 位 

Boolean 布尔 值 

Double 双 精 度 浮 点 值 

Min/Max keys 将 一 个 值 与 BSON (二 进 制 的 JSON) 元 素 的 最 低 值 和 最 高 值 相对 比 

Arrays 用 于 将 数组 或 列表 或 多 个 值 存储 为 一 个 键 

Timestamp 时 间 戳 ， 记 录 文 档 修改 或 添加 的 具体 时 间 

Object AFAR 

Null 用 于 创建 空 值 

Symbol 符号 ， 该 数据 类 型 基本 上 等 同 于 字符 串 类 型 ， 但 不 同 的 是 ， 它 一 般 用 于 采用 特殊 符号 类 
型 的 语言 

Date 日 期 时 间 ， 用 UNIX 时 间 格 式 来 存储 当前 日 期 或 时 间 

Object ID 对 象 ID， 用 于 创建 文档 的 ID 

Binary Data 二 进 制 数据 ， 用 于 存储 二 进 制 数据 

Code 代码 类 型 ， 用 于 在 文档 中 存储 JavaScript 代码 


Regular expression 


正则 表达 式 类 型 ， 用 于 存储 正则 表达 式 
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554 MongoDB 基本 操作 
1. 数据 库 操作 


使 用 use DATABASE NAME 创建 数据 库 : 


> use scrapy 


switched to db scrapy 


如 果 数 据 库 不 存在 ， 就 创建 数据 库 ， 否 则 切换 到 指定 的 数据 库 。 


使 用 show dbs 查看 所 有 的 数据 库 : 
>show dbs 

admin 0.000GB 

config 0.000GB 

ithome 0.002GB 
lianjia 0.000GB 

local 0.000GB 


segmentfault 0.004GB 


上 面 我 们 创建 的 serapy 数据 库 没 有 显示 出 来 ， 是 因为 scrapy 数据 库 中 没有 数据 。 


> db.scrapy.insert(l'python':' 35.78" ]) 


WriteResult(( "nInserted" : 1 ]) 
> show dbs 

admin 0.000GB 

config 0.000GB 

ithome 0.002GB 

lianjia 0.000GB 

local 0.000GB 

scrapy 0.000GB 


segmentfault 0.004GB 


插入 数据 后 ， 即 可 看 到 数据 库 scrapy。 
使 用 db.dropDatabase0 删 除数 据 库 : 


> use scrapy 
switched to db scrapy 
> db.dropDatabase () 

( "dropped" 
» show dbs 


: C NSCFEADY . "OK" 5 $7] 


admin 0.000GB 
config 0.000GB 
ithome 0.002GB 
lianjia 0.000GB 
loca 0.000GB 


segmentfault 0.004GB 
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2. 集合 操作 


使 用 db.createCollection(title,options) 创 建 集合 。 其 中 ，title 为 集合 名 称 ，option 是 可 选 的 参数 ， 
可 选 参数 如 表 5-8 所 示 。 


表 5-8 MongoDB 创 建 集合 参数 


字段 。 | 类 型 | 描述 

capped 可 选 参数 ， 若 为 tue， 则 表示 创建 固定 集合 。 固 定 集合 是 指 有 着 固定 大 小 的 集合 ， 
当 达 到 最 大 值 时 ， 它 会 自动 覆盖 最 早 的 文档 。 当 该 值 为 me 时 ， 必 须 指定 size 参数 

autoIndexId 可 选 参数 ， 若 为 tue， 则 表示 自动 在 id 字段 创建 索引 ， 默 认为 false 

size 可 选 参数 ， 为 固定 集合 指定 一 个 最 大 值 〈 单 位: 字 节 )。 如 果 capped 为 tue， 就 必 
须 指定 该 字段 

max 可 选 参数 ， 指 定 固定 集合 CH capped-true 时 ) 中 包含 文档 的 最 大 数量 


在 book 数据 库 中 创建 名 为 python 的 集合 : 


> use book 

switched to db book 

» db.createCollection('python') 

I*"Uk- v EESTI 

查看 所 有 集合 ， 使 用 show collections 或 show tables: 


» show collections 
python 
» show tables 


python 


使 用 db.collection name.dropO 删 除 集 合 : 


» db.python.drop() 
true 

» show collections 
» 


3. 文档 操作 


文档 的 数据 结构 和 JSON 基本 一 样 。 所 有 存储 在 集合 中 的 数据 都 是 BSON 格式 的 。BSON 是 
类 JSON 的 一 种 二 进 制 形 式 的 存储 格式 ， 是 Binary JSON 的 简称 。 
(1) 使 用 db.collection name.insert(document) 在 集合 中 插入 文档 : 


» db.python.insert(('title':'Simple Python','author':'Jan 
Kin','price':45.89)]) 
WriteResult(( "nInserted" : 1 ]) 


使 用 db.collection name.insertMany([documentl ,document2,...])Jfi ^ € 2& X: F5: 
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> db.python.insertMany([('title':'Java','author':'Jams', 'price' :55.00], 
('title': M Python', 'author' 
ee 36-7811) 
{ 
"acknowledged" : true, 
"insertedIds" : [ 
ObjectId ("5c77c2dcelaf40396c67ae2f"), 
ObjectId ("5c77c2dcelaf40396c67ae30") 


} 
(2) 使 用 db.collection name.find() Æ i8] X F5: 


» db.python.find() 

[ " id" : ObjectId("5c77bf7b082f4c56db42bae2"), "title" : "Simple Python", 
"author" = "Jan Kin", "price" 2.45.89 ] 

Iud" ObhjecEId("5cfic2dcelarsU39b5cOlape? t"), LiELe ; "Java". "author" ls 
"dJams", "Brice" : S5 ] 

icd" f 0bDjgecETHI 5c ceZdcetatalSb5chlae3D ) SCIC s "精通 Python", 
"author" : "jK—", price e 6r lo] 


可 以 使 用 .pretty0 方 法 来 使 输出 数据 更 易 读 : 


> db.python.find().pretty() 
{ 
" id" : ObjectId ("5c77bf7b082f4c56db42bae2"), 
"title" : "Simple Python", 
"uuLlhor".- Sdan Kins, 
"Drice" : 45.89 


" id" : Object Id("5c77c2dcelaf40396c67ae2f"), 
"EItle : Javas, 

"author" : "gJams", 

"Drice" f 55 


" id" : Objectid("5c77c2dcelaf40396c67ae30") , 
"title" : "# Python", 
"author" : "3K—", 
"price" : 36.78 
} 


在 find0 方 法 中 可 以 添加 条 件 语句 ， 用 来 更 精确 地 诅 找 结果 ， 可 用 的 条 件 语 句 如 表 5-9 所 示 。 
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表 5-9 ”MongoDB 查 询 条 件 语 句 


操作 说 明 


A 


从 python 集合 中 查找 price 小 于 
50 的 文档 


-fSlte: 从 python 集合 中 查找 price 小 于 
小 于 等 于 | {<key>:{$lte:<value>}} en 


x 
XT {<key>:{$et:<value>}} | dbpython find( ('price": {$gt:50}}) < 集合 中 查找 price 大 于 


小 于 {<key>: {$lt:<value>}} 


从 python 集合 中 查找 price 大 于 
<key>:{$ete:<val 
大 于 等 于 | {<key>:{$gte:<value>}} 等 于 45.89 的 文档 
从 python 集合 中 查找 price 不 等 


不 等 于 {<key>:{$ne:<value>}} 于 45.89 的 文档 


查询 条 件 语句 也 可 以 组 合 使 用 ， 达 到 AND 和 OR 的 功能 。 将 多 个 条 件 以 逗号 隔 开 ， 可 以 作为 
AND 条 件 使 用 。 比 如 查询 集合 中 author 为 张 三 ， 并 且 price 大 于 40 的 数据 : 


> db.python.insert(('title':'Scrapy Al]','author':'5K—','price':40.99]) 

WriteResult(( "nInserted" : 1 ]) 

> db.python.find() 

I" nd" - ObjectEHd("5cI IBETDOUB2EA4C56db42Dae2") , "txrtle" : "Simple Python", 
"uubEhor^ s "Jan Kim, "price" s: 45.89 ] 

I" id* : ObjectIid("5c//Ic2dcelar40396c67Tae21"), "title" : "Java", "author" : 
"James", "Drice" : 55 ] 

i "uu" s; ObjecETd[ 5ci7c2dcelar40396c672e30"], "title" : "精通 Python", 
"author" : "jK—", "price" : 35.7B ] 

| ad" c ODIecETd(" Scl CacsetTareg 396chyíae 30^]. CEIEDIeT "Scrapy AÍT1", 
"author" : "jK—", "price" : 40,89 ] 

> db.python.find(('author':' JK—', 'price':{$gt:40}})) 

17d" foDbDjecEnd[ 5c JI Icac3opelartUJ96colae M), "t36le" 3 "Scrapy AT1", 
"author" : "jK—", "price" : 40.99 ] 


使 用 关键 字 $or 可 以 执行 OR 条 件 功 能 。 比 如 查询 集合 中 author 为 张 三 或 者 price 大 于 45 的 数 
据 : 
> db.python.find((Sor:[('title':'9K—']), ('price':[$gt :45]] ] )) 
( " id" : ObjectId("5c77bf7b082f4c56db42bae2"), "title" : "Simple Python", 
"Taubhor 3: "Joan Kin". "DEFicp" 3 45:891} 
LI 3d". ObjecETd("ScTIc2ZdcelatA0396cb7aec2T"), ttle - "Java", "guthor"^ - 
"Jams". "price" : 55 ] 
更 复杂 的 条 件 语句 可 以 结合 AND 5 OR 一 起 使 用 。 下 列 语句 查询 price 大 于 40 的 author 为 张 
三 或 者 title 为 Java 的 数据 : 
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> db.python.find({"'price':{S$gt:40},S$or:[{"'author":" 张 三 "}， 
[('title':'Java']1]) 

i" 2d - OBjecETId("»scrTIC2ZOCceTaPA4DdT95CGTGC2: To "EiLIC" 2dana , "mutBbor" s 
"Jams", "price" : bh ] 

Lo 3dg* - ObJecErd("sericacuetaragd965cbiage 1"), "Ertbe "Scrapy All", 
"author" : "jK—", "price" : 40.99 } 


(3) 使 用 update0 更 新 文档 ， 命 令 如 下 : 


db.collection.update( 


«query», 
«update», 


{ 


upsert: «boolean», 
multi: «boolean», 
writeConcern: «document» 


) 
参数 说 明 : 


e query: update 的 查询 条 件 ， 类 似 于 where 的 子 句 。 
e update: update 的 对 象 和 一 些 更 新 的 操作 符 ， 类 似 于 set 后 面 的 语句 。 
e upsert 可 选 ， 如 果 不 存在 update 的 记录 ， 是 否 插 入 新 文档 。True 为 插入 ， 默 认 是 False， 不 


插入 。 
e multi: 可 选 ， 默 认 是 False， 只 更 新 找到 的 第 一 条 记录 。 如 果 这 个 参数 为 True， 就 把 按 条 件 
查 出 来 的 多 条 记录 全 部 更 新 。 


e writeConcern: 可 选 ， 抛 出 异常 的 级 别 。 


我 们 将 author 为 “ 张 三 ” 的 数据 修改 为 author 等 于 “ 张 起 灵 ”: 


> db-python -update ({'author' :' 张 三 '}, {$set:{'author':' 张 起 灵 '}}， 
(multi:true]) 
WriteResult([ "nMatched" : 2, "nUpserted" : 0, "nModified" : 2 1) 
> db.python.find().pretty() 
{ 
" id" : ObjectId("5c77bf7b082f4c56db42bae2"), 
"title" : "Simple Python", 
"author" z "Jan Kin". 
"price" : 45.89 


"ud": Objeetrd("»5cric2zdcelar4DJ9oUCbfae2 €). 
titler = a 


"author" : "Jams", 
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^"Drice" 5 55 


" id" : ObjectId("5c77c2dcelaf40396c67ae30"), 
"Litle" : "HD Python", 

"author" : "KER", 

"Drice" 236.178 


" id" : ObjectId("5cTl7cac5elaf40396c6/ae31"), 
"titlet - "Scrapy ATI", 
"author" : "KER", 
"price" : 40.99 
} 


(4) 使 用 remove0 方 法 删除 文档 ， 命 令 格式 如 下 : 


db.collection.remove ( 
«query», 
{ 


justOne: «boolean», 


writeConcern: «document» 


) 
参数 说 明 : 


e query: 可 选 参数 ， 删 除 文档 的 条 件 。 

e justOne: 可 选 参数 ， 如 果 设 为 True 或 1， 就 只 删除 一 个 文档 。 如 果 不 设置 该 参数 ， 或 使 用 默 
认 值 False， 就 删除 所 有 匹配 条 件 的 文档 。 

e writeConcem: 可 选 参数 ， 抛 出 异常 的 级 别 。 


删除 author 为 张 起 灵 的 数据 ， 只 删除 一 条 : 


> db.python.remove(('author': ' 张 起 灵 ' } ， {justone:1}) 
WriteResult(( "nRemoved" : 1 }) 
» db.python.find().pretty () 
{ 
"dd" : ObjecEId(^5cTIbDEIbOB27TACh6dD4I2bae2"], 
"title" : "Simple Python", 
"uuthor" :."dan Ein". 
"price" : 45.89 


"gd" : ObjJectrd(["5cTIc?dceltar40396c6 r'ae?r^), 
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"Litle" : "Java", 
"author" : "Jams", 


Sprice =n 85 


" Ad" : Object Td["5cT7cacSselat40396c67ae31"], 
"titien =: "Scrap AT Tv. 

"author" : "KER", 

"price" : 40.99 


5.5.5 Python 操作 MongoDB 


Python 操作 MongoDB 需要 安装 pymongo 库 ， 安 装 方法 如 下 : 
pip install pymongo 


使 用 前 导入 pymongo P: 
import pymongo 


(1) 连接 MongoDB 
使 用 pymongo 中 的 MongoClient 模块 连接 MongoDB, A 3 种 方式 : 


e clent=pymongo.MongoClient() 
e clent=pymongo.MongoClient(host,port) 
e client = pymongo.MongoClient('mongodb://user:password(à) example.com:2701 7/test") 


第 1 种 是 默认 MongoDB 的 链接 地 址 为 localhost, mi E173 27017; 第 2 种 手动 指定 host 和 port; 
第 3 种 则 传 入 一 个 完整 的 URI 进行 连接 ， 指 定 用 户 名 、 密 码 、 链 接地 址 、 端 口 与 使 用 的 数据 库 。 


(2) 获取 数据 库 
连接 上 MongoDB 之 后 ， 下 一 步 就 需要 获取 需要 使 用 的 数据 库 ， 有 两 种 方式 可 用 : 
e db=clientbook: 使 用 属性 访问 。 
e db=client[book]: 使 用 字典 形式 访问 。 


(3) 获取 集合 
与 获取 数据 库 一 样 ， 同 样 有 访问 属性 与 使 用 字典 两 种 方式 获取 集合 : 


collection = db.python 
collection - db['python'] 


(4) 操作 文档 
操作 文档 的 方法 与 前 面 演示 的 在 MongoDB Shell 中 的 操作 方法 基本 一 致 ， 如 查询 依然 使 用 
find0 方 法 ， 并 且 查 询 条 件 同样 适用 ， 代 码 如 下 : 
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import pymongo 
client - pymongo.MongoClient () 


db = client['book'] 
# db = client.book 
collection = db['python'] 
# collection = db.python 


datal = collection.find() 
for d in datal: 
print (d) 
Printio- ISl 
data2 = collection.find(('author':' Ki ']) 
for d in data2: 
print (d) 
运行 结果 : 
(' id': Objectid('5c77bf7b082f4c56db42bae2'), 'name': 'Simple Python', 
tauthor': "Jan KINS, 'price' : 45.89] 
(' id': Objectid('5c77c2dcelaf40396c67ae2f'), 'name': 'Java', 'author': 
'Jams', 'price': 55.0) 
{ 1d": ObjectId( sc /cacoelaF40396c67ae31*), "name : 'Scrapy AÍ1', 'author': 
' 张 起 灵 '， 'price': 40.99} 


(' id': ObjectId('5c77cac5elaf40396c67ae31'), 'name': 'Scrapy 入 门 '， 'author': 
AKEX', 'price': 40.99) 


5.6 ZR: IEBX$ÉZK —FEinm;BJIFURTEEU SS EE 


Aki ERER T ps fo Ils 73 P dS fi HR P Dt. LEER PARERE SU SS 
方便 读者 更 好 地 理解 与 使 用 。 本 项 目 中 编辑 器 为 PyCharm， 数 据 库 为 MongoDB， 除 了 MongoDB 
官方 提供 的 MongoDB Compass 数据 库 查 看 工具 外 ，PyCharm 中 有 一 个 很 好 用 的 MongoDB 插件 ， 
可 以 方便 地 查看 数据 库 数 据 。MongoDB 插件 安装 方法 如 下 : 


(1) 进入 file-settings 界面 ， 单 击 Plugins 选项 。 
(2) 在 Plugins 页 面 单 击 页 面 下 方 的 Browse repositories... ZEH. 
G) 在 搜索 框 中 搜索 Mongo Plugin， 进 行 安装 ， 如 图 5.25 所 示 。 


Mongo PI 


Editor 

Plugins 

Version Control 

Project: maoyan 

Build, Execution, Deployment 


u Frameworks 


5.25 安装 Mongo Plugin 


【示例 5-4】 链 家 二 手 房 房 源 数据 抓 取 
先 来 分 析 起 始 数 据 页 https://bj.lianjia.com/ershoufang/ 的 结构 ， 如 图 5.26 所 示 。 


共 找 到 52083 套 北 京 在 售 二 手 房 源 


SuAnRES ES 总 从 


首 城 国际 B 区 2 室 1 厅 790 万 


首 城 国际 B 区  2w1h ，88.85 平 米 ， 南北 NE tmu 


GARR)  20105mdE&GOG X4 


年 价 88914 元 /平水 


Sc 


— ES 


style-"di 


address 

flood" 5. 
followInfo"»./div 
listButtonContsiner*».(/div 


i class-"cieor LOGCLICKDATA 


i cless-"clear LOGCLICKDATA 
LOGCLICKDATA 


Class-"clear 
class-"cleor LOG 
cless-"clear 
Class-"clear 
lass-"cleor L 

i cless-"clear 
class-"cClear 

li class-"clear L 


div.content t t ulsellustContent liclear.LOGCUCKOATA  dieinfoclear divtitle a 


图 5.26 链 家 页 面 数据 结构 分 析 
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可 以 看 到 ， 在 数据 起 始 页 ， 二 手 房 数据 存 放 在 <ul> 标 签 中 ， 每 一 套 二 手 房 数据 对 应 一 个 <1i> 标 
签 ，<1> 标 签 中 的 图 片 与 标题 的 链接 对 应 这 个 二 手 房 的 详细 页 面 ， 因 此 我 们 可 以 使 用 CrawlSpider 
进行 自动 的 跟 进 爬 取 。 

再 来 分 析 详 情 页 面 ， 如 图 5.27 所 示 。 


ES ”成 交 小 区 房价 WHERE ， 证 输入 关键 闻 按 过 


2 室 1 厅 南北 88.85 平 米 


TEE FEE 2010 年 过/ 板 深谷 会 


首 城 国际 B 区 好 图 
; ABRE 近 7 写 舌 九 龙山 站 
co 拓 前 预 汐 随 时 可 大 
101103474107 举报 


评分 :5.0/37 人 评价 
4008893256 $$ 0083 


优选 房 深 拥 方 更 高 的 总 争 力 和 关注 度 


房屋 户型 ”2 至 1 厅 1 局 1 卫 EE (285) 
RAER 8885n? FE 

EARR 68.5? IRRE 

5E hrtha 0 it HESA 
IER mE 两 评 四 户 
HESI nmg 

=H 70& 


jzieaji — 2018-10-06 mem 
上 次 交易 2012-11-05 BRI 
SET mE 产权 所 届 
HRSS SER 50 万 元 PERG.. 2At 


图 5.27 链 家 二 手 房 详情 页 


从 简介 面板 中 提取 标题 、 房 屋 总 价 及 每 平米 单价 ， 从 基本 信息 中 提取 房屋 的 基本 属性 和 交易 
属性 ， 具 体 如 图 5.28 和 图 5.29 所 示 。 
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GS c AXE 


2 室 1 厅 79 


peg x xS 
eI E A. 


FUR AS 


790. Loon 


南北 


Console Soues Network Performance Mio  Appicaion Securty Audits 


1 Ciest 
nl clsss-"main* title- "MERR zXi[T 79.5 AEE nT 73895071 
div [1355- sup" title- FAAR ESIPBETHETu0A BRE. EREBEENKRSOA jv 


cddiv> 


> «div class-"action'».:/div 
b«div class-"action "</div> 


xibefore 
b«civ class-"img* id-"topImg"».«/div 
Y «civ class-"content"'; 
><span class-"sharethis"».c/span 
P«div Class-"compareBtn LOGCLICK" log-mod-"19118347413 "bl-"rignt top" data-log evtid-"10231"5».«/Civ» 
v«div class-"price "> 
*spen cless- total';790-/span- 
v spen class-"unit" 
span H </span> 
¿span> 
"div class-"text^ 
v div class-"unitPrice" 
v «span Class-"unitPriceValue" 
"$8914" 


htmi body divoveriew  divcontent divprce spantotal 


图 5.28 标题 与 价格 定位 


BEP 2 宇 1 厅 1 厨 1 卫 所 在 楼 大 (EE H285) 
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EAHA 685m RAST ë ë WESA 
mS m t RASH Mies 
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HEST Seng mere 有 
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图 5.29 ”房屋 属性 元 素 定 位 
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(1) 创建 项 目 : 

scrapy startproject lianjiahouse 

(2) 创建 项 目 之 后 ， 我 们 使 用 crawl JE t SEO Greg E n cf: 
scrapy genspider -t crawl house lianjia.com 

G) 创建 项 目 之 后 ， 编 写 items.py 文件 ， 设 置 需 要 抓 取 的 内 容 : 


01 scrapy genspider -t crawl lianjiahouse lianjia.com 
D £F —*— coding: utt-B8 -*- 

03 

04 £$ Define here the models for your scraped items 

05 4 

06 4 See documentation in: 

07 4 https://doc.scrapy.org/en/latest/topics/items.html 


08 

09 import scrapy 

10 

TT 

12 class Lianjialtem(scrapy.Item): 
13 £ define the fields for your item here like: 
14 i name = scrapy.Field() 

15 # 发 布 信息 名 称 

16 house name = scrapy.Field() 
17 # 小 区 名 称 

18 community name = scrapy.Field() 
19 * 所 在 区 域 

20 t location = scrapy.Field() 
21 * 链 家 编号 

21 house record - scrapy.Field() 
22 # 总 售 价 

253 total amount = scrapy.Field() 
24 # 单价 

29 unit price = scrapy.Field() 
26 * 房屋 基本 信息 

21 # 建筑 面积 

28 area total - scrapy.Field() 
29 + 套 内 面积 

30 area use = scrapy.Field() 

31 # 厅 室 户型 

32 house type - scrapy.Field() 
33 # 朝向 

34 direction = scrapy.Field() 

35 # 装修 情况 


36 sub info = scrapy.Field() 
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37 * 供暖 方式 

38 heating method = scrapy.Field() 
39 # 产权 

40 house property = scrapy.Field() 
41 # BE 

42 floor = scrapy.Field() 

43 # 总 层 高 

44 total floors = scrapy.Field() 
45 # 电梯 

46 is left - scrapy.Field() 

47 # 户 梯 比例 

48 left rate = scrapy.Field() 

49 # 户型 结构 

50 structure - scrapy.Field() 

51 # 房屋 交易 信息 

52 # 挂牌 时 间 

53 release date - scrapy.Field() 
54 # 上 次 交易 时 间 

55 last trade time - scrapy.Field() 
56 * 房屋 使 用 年 限 

24 house years - scrapy.Field() 

58 # 房屋 抵押 信息 

59 pawn = scrapy.Field() 

60 # 交易 权 属 

61 trade property - scrapy.Field() 
62 # 房屋 用 途 

63 house usage = scrapy.Field() 

64 # 产权 所 有 

65 property own = scrapy.Field() 
66 # 图 片 地 址 

67 images urls - scrapy.Field() 

68 # 保存 图 片 

69 images - scrapy.Field() 
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(4) 编写 好 items.py 之 后 ， 然 后 编写 pipelines.py。 这 里 主要 编写 两 个 pipeline 方法 : 一 个 用 


于 保存 数据 ; 男 一 个 用 于 处 理 图 片 ， 代 码 如 下 : 


dl oe ME = 


02 

03 4 Define your item pipelines here 

04 * 

05 F Don't forget to add your pipeline to the ITEM PIPELINES setting 
06 4 See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html 


07 import pymongo 
08 from scrapy.pipelines.images import ImagesPipeline 
09 from scrapy import Request 
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10 
11 class LianjiaPipeline (object): 


1» # 设置 存储 文档 名 称 


13 collection name - 'secondhandhouse' 

14 

15 def | init (self, mongo uri, mongo db): 

16 self.mongo uri = mongo uri 

17 self.mongo db = mongo db 

18 

19 @classmethod 

20 def from crawler(cls, crawler): 

21 return cls( 

22 # 通过 crawler 获取 settings 文件 ， 获 取 其 中 的 MongoDB 配置 信息 
23 mongo uri-crawler.settings.get('MONGO URI'), 
24 mongo db-crawler.settings.get('MONGO DATABASE', 'lianjia') 
25 ) 

26 

21 det open spider[selt, spider): 

28 + 4E rRÍTJTRI MongoDB 数据 库 

29 * 先 连接 Server， 再 连接 指定 数据 库 

30 self.client = pymongo.MongoClient (self.mongo uri) 
3l self.db = self.client[self.mongo db] 

32 

33 def close spider(selr, spider): 

34 # ERARAS EXE 

35 self.client.close() 

36 

37 def process item(self, item, spider): 

38 # 将 item 插入 数据 库 

39 self.db[self.collection name].insert (dict (item)) 
40 return item 

41 

42 

43 class LianjialmagePipeline (ImagesPipeline): 

44 def get media requests(self, item, info): 

45 ior image uri! in itemi images urls 1: 

46 # 将 图 片 地 址 传 入 Request， 进 行 下 载 ， 同 时 将 item 参数 添加 到 Request 中 
47 yield Request (image url, meta-[('item': item]) 
48 

49 def file path(self, request, response-None, info-None): 
50 # 从 Request 中 获取 item， 以 房屋 标题 作为 文件 夹 名 称 

S1 item = request.meta['item'] 

52 image folder - item['house name'] 

53 # 使 用 图 片 URL 作为 图 片 存 储 名 称 


54 image guild - request.url.split('/')[-1] 
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55 # 图 片 保存 ， 文 件 夹 /图 片 
56 image save = u'{0}/{1}'.format (image folder, image guild) 
517 return image save 


(5) 在 settings.py 中 激活 Pipeline， 设 置 图 片 存储 信息 、MongoDB 数据 库 信 息 。 还 有 一 点 要 
注意 ,将 REBOTSTXT OBEY 属性 改 为 False， 默 认 遵 守 robots 协议 的 话 是 不 能 爬 取信 息 的 ， 后 续 
章节 将 会 详细 讲解 Scrapy 默认 设置 : 


# Obey robots.txt rules 
ROBOTSTXT OBEY - False 


# Configure item pipelines 
# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html 
ITEM PIPELINES = { 

'lianjia.pipelines.LianjiaPipeline': 300, 


'lianjia.pipelines.LianjialmagePipeline':400 


# 图 片 存 储 配 置 

IMAGES STORE = 'D:\\Scrapy\\chapter5\\5_04\\lianjia\\images' 
IMAGES URLS FIELD = 'images urls' 

IMAGES RESULT FIELD = 'images' 


# MongoDB 配置 信息 
MONGO URI = 'localhost:27017' 
MONGO DATABASE - 'lianjia' 


(6) 编写 爬虫 文件 ， 其 中 的 Rue 要 追踪 每 条 房屋 信息 的 详情 页 面 : 


ÜT £f —*  roding- HULt-8 —- 

02 import scrapy 

03 from scrapy.linkextractors import LinkExtractor 
04 from scrapy.spiders import CrawlSpider, Rule 

05 from lianjia.items import Lianjialtem 

06 class SechandhouseSpider (CrawlSpider): 


07 name — 'lianjiahouse' 

08 allowed domains - ['lianjia.com'] 

09 start urls - ['https://bj.lianjia.com/ershoufang/'] 

10 

TT rules - ( 

12 Rule (LinkExtractor (allow-'/ershoufang/Nd(12].html'), 
callback-'parse item'), 

13 ) 

14 

15 def parse item(self, response): 

16 i = LianjiaItem() 


17 # 二 手 房 名 称 
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18 


19 
20 


2 
22 
23 


24 
25 


26 
20 
28 


29 
30 


RI 
32 
33 


34 
35 
36 


E 
38 
39 


40 
41 
42 


43 
44 
45 


46 
47 
48 


49 
30 


Scrapy px 2&[B FR SAR 


i['house name'] - response.css 
('title::text').extract first().replace(' ','") 
# 所 在 小 区 
i['community name'] = response.css('.communityName a::text'). 
extract first[) 
# i['location'] = response.css() 
* 链 家 编号 
i['house record'] - response.css 
(".houseRecord .info::text').extract first () 
# 总 价 
i['total amount'] = response.css 
(".Ggverview .total::text ).extract First() 
# 房屋 信息 
# 单价 
i['unib price'] — response.css 
('.unitPriceValue::text').extract first() 
# 建筑 总 面积 
i['area total'] - response.xpath 


('//div[8class-"base"]//ul/li[3]/text() ')N 
sre First( aa) 
# 使 用 面积 
i['area use'] = response.xpath 
('//div[Q8class-"base"]//ul/li[5]/text () ')N 
sre DIRSELA Vir ve 
# 房屋 类 型 
i['house type'] = response.xpath 
('//div[Q8class-"base"]//ul/li[1]/text () ')N 
.extract first() 
# ARAR 
i['direction'] = response.xpath 
('//div[8class-"base"]//ul/li[7]/text () ')^ 
.extract first () 
# 装修 情况 
i['sub info'] = response.xpath 
('//div[8class-"base"]//ul/li[9]/text() ')^ 
;exbracb ETXESETI 
# 供暖 方式 
i['heating method'] = response.xpath 
('//div[8class-"base"]//ul/li[11]/text () ')^ 
-extract firsE[ 
# 产权 
i['house property'] = response.xpath 
('//div[8class-"base"]//ul/li[13]/text () ')^ 
extract first 


# BE 


51 


I2 
33 
54 


39 
56 
57 


58 
59 
60 


61 
62 
63 


64 
65 
66 


67 
68 
69 


70 
ra 
T2 
T3 


74 
Ta 
76 


TA; 
78 
79 


80 
81 
82 


83 
84 
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i['floor'] = response.xpath 
('//div[8class-"base"]//ul/li[2]/text () ')N 
QOXEPHCE ETFESETD 
* 总 楼 层 
i['total floors'] - response.xpath 
('//div[8class-"base"]//ul/li[2]/text () ')N 
PEOTI SCIE A 
# 是 否 有 电梯 
i['is left'] - response.xpath 
('//div[Q8class-"base"]//ul/li[12]/text () ') ^ 
Bxtract tirat ly 
# 户 梯 比例 
i['left rate'] - response.xpath 
('//div[QGclass-"base"]//ul/li[10]/text() ')^ 
exbruct ErrsETD 


# 挂牌 时 间 

i['release date'] - response.xpath 
('//div[Gclass-"transaction"]//ul/li[1]' 
'Zspan[2]/text() ').extract tirst() 

# 最 后 交易 时 间 

i['last trade time'] = response.xpath 
(*//div[Gclass-"transaction"]//ul/1i[3]' 
wie eo PANASS A TII T ESEEHCESERESETI 

# 房屋 使 用 年 限 

i['house vears 1 response.xpath 


(*//div[Gclass-"transaction"]//ul/li[5]' 
"/span[2|/text()")-extract £Eirst[() 
# 房屋 抵押 信息 ， 抵 押 信 息 中 有 空格 及 换行 符 ， 
* 先 通过 replace () 将 空格 去 掉 ， 再 通过 strip () 将 换行 符 去 掉 
i['pawn'] = response.xpath 
('//div[Gclass-"transaction"]//ul/li[7]/span[2]' 
Se 


# 交易 权 属 

i['trade property'] ~ response.xpath 
(*//div[Gclass-"transaction"]//ul/li[2]' 
'/span|2]7text() ').extract first () 

# 房屋 用 途 

i['house usage'] = response.xpath 
(*//div[Gclass-"transaction"]//ul/li[4]' 
JspaniZl/textt)").extrdcl EsEsET] 

# 产权 所 有 

i['property own'] = response.xpath 


('//div[Gclass-"transaction"]//ul/li[6]' 
WM spanp2ZiftexUt] -Extract Errsb t) 
# EH url 
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85 il images urls'] = response.css[' .smaiipic > 
TrrffattrE(datLa-pic)").extract (t) 
86 yield i 


CD 运行 仅 虫 ， 运行 完 成 之 后 查看 数据 。 上 面 在 PyCharm 添加 过 Mongo Plugin, 现在 通过 插 
件 连接 MongoDB， 其 中 label 栏 位 可 以 自行 设置 名 称 ， 如 图 5.30 所 示 。 


MA sn ee af ff 
viongo server avallable 


1810|dx] Ouo w 


General Authentication SS You to add configuration 


ABIAIDS isi 


-— 
= 
= 
E 


E A onnection Test Successful X 


Connection test successful 


OK 


图 5.30 MongoPlugin 测试 MongoDB 连接 


添加 MongoDB 服务 器 之 后 ， 右 击 它 ， 选 择 Connect to this server 菜单 ， 连 接 服务 器 ， 之 后 会 
显示 所 有 的 数据 库 ， 如 图 5.31 所 示 。 


Mongo Explorer 


+ - S 


3 OUUOVN 


LÁ ETE] 


E admin 


1810|dx 3 oBuojA 


JOJO[d X 


onfig 


REWE 


ES local 


w 


5.31  MongoPlugin 连接 MongoDB 
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双击 数据 库 中 的 文档 名 称 ， 查 看 抓 取 到 的 数据 ， 文 档 右 上 和 角 有 两 个 按钮 ， 其 中 左边 按钮 以 键 


值 对 形式 查看 数据 ， 右 边 按钮 以 表格 形式 查看 数据 ， 如 图 5.32 所 示 。 


QA + 


5.32 MongoPlugin 查看 数据 


再 来 查看 保存 的 图 片 ， 在 文件 夹 中 可 以 看 到 ， 己 经 以 二 手 房屋 的 标题 作为 文件 夹 名 称 存放 了 
房屋 的 相关 图 片 ， 如 图 5.33 所 示 。 
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图 5.33 图 片 保 存 目录 


文件 夹 中 存储 的 图 片 如 图 5.34 所 示 。 


156 | Scrapy Ri£&[E FB Sc x 


BAIA HAEA IFS LARE, WG, SASN AAR ERSE.. 一 口 X 


Ei im 
d JP| 
« ima 5» 北京 RIERREN, WRAS, SADES ICRA HAH... vO ă RARABI Ait.. 
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Wa | " 
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png.1420x800... 


test-f28fe471-a 
c43-4a45-8dab 
-b00aca5f3008. 
png.1420x800... 


图 5.34 二 手 房 对 应 图 片 


至 此 ， 一 个 使 用 数据 库存 储 息 取 数 据 的 项 目 就 结束 了 。 本 项 目 只 抓 取 了 北京 地 区 二 手 房 第 一 
页 的 数据 ,读者 如 有 兴趣 可 尝试 将 后 续 数 据 及 其 他 地 区 的 数据 一 并 抓 取 下 来 。 男 外 ,请 读者 思考 如 
何 将 数据 存储 到 MySQL 数据 库 。 


Request 5 Response 


Scrapy 框架 中 ， 有 两 个 主要 的 对 象 Request 与 Response, CIA Z (Een ianzk, mAAR 
过 它们 将 数据 串联 起 来 。 

总 的 来 说 ，Request 对 象 在 Spider 中 和 生成， 包含 HTTP 请 求 信息 ， 在 框架 中 经 过 一 系列 传递 、 
处 理 ， 最 终 到 达 Downloader 下 载 器 ， 下 载 器 执行 Request 中 的 请 求 进 行 数据 抓 取 ， 将 生成 的 啊 应 
包装 成 一 个 Response 对 象 ， 再 经 过 传递 、 处 理 ， 最 终 返 回 发 送 Request 的 Spider， 整 个 流程 如 图 
6.1 所 示 。 


Request Request 
。 引擎 
i 。 中 间 件 

Response Response 


图 6.1 传递 Response 5; Request 
Request 类 与 Response 类 中 都 含有 一 些 额 外 的 功能 ， 可 以 进行 高 度 定制 ， 本 章 会 详细 介绍 。 
本 章 主要 的 知识 点 有 : 
e Request 类 分 析 
Request 中 如 何 传递 数据 
e Response 类 分 析 
e Response 子 类 介绍 


6.1 Request 对象 


Request 对 象 由 Spider 生成 ， 包 含 指定 的 HITP 请 求 信息 ， 最 终 传递 到 Downloader 下 载 器 进 
行 数据 下 载 。 
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6.1.1 Request 类 详解 


Request 类 原型 : 


class scrapy.http.Request(url[, callback, method-'GET', headers, body, 
cookies, meta, encoding-'utf-8', priority-0, dont filter-False, errback, flags]) 


e url(string): 请 求 URL. 

e callback(callable): 调用 指定 的 方法 处 理 请 求生 成 的 响应 ， 如 果 不 指定 ， 就 默认 使 用 parse() 方 
法 处 理 响 应 。 需 要 注意 的 是 ， 一旦 发 生 错 误 ，errback 指定 的 异常 处 理 方法 将 会 代替 该 方法 被 
38/f . 

e method(string: HTTP 请 求 方法 ， 默 认为 GET. 

e meta(dicb: Request.meta 属性 的 初始 值 。 

€  body(str or unicode); 请 求 body。 如 果 值 为 Unicode， 那 么 将 会 用 encoding 指定 的 编码 方式 转 
化 为 str 类 型 。 如 果 body 不 指定 ， 就 会 存储 为 空 字 符 串 ， 因 此 ， 无 论 body 指定 为 何 种 类 型 ， 
最 终 都 是 存储 为 一 个 字符 串 。 

e headers(dict): 请 求 头 。 如 果 指 定 为 None， 将 不 会 发 送 请 求 头 。 

e cookies(dict or list): 请 求 cookies， 可 以 用 以 下 两 种 方式 发 送 : 


(D 使 用 字典 发 送 : 


request with cookies = Request (url-"http://www.example.com", 
cookies-['currency': 'USD', 'country': 'UY')) 


@ 使 用 字典 列表 发 送 : 
request with cookies = Request (url-"http://www.example.com", 


cookies-[('currency': 'USD', 'country': 'UY']) 
request with cookies - Request (url-http://www.example.com, 


cookies-[í('name': 'currency', 
twatue': 'USD', 
'domain': 'example.com', 


'path': '/currency']]) 


第 2 种 形式 支持 自 定 义 cookies 中 的 domain 与 path， 这 种 情形 通常 是 为 了 把 cookie 保存 到 之 
后 的 请 求 中 ， 在 接 下 来 的 请 求 中 发 送出 去 。 

当 一 些 网 站 返回 cookies 时 ， 这 些 cookies 将 会 存储 在 相对 应 的 cookies 域 中 ， 这 是 一 个 典型 的 
浏览 器 行为 。 由 于 一 些 原因 ， 当 我 们 不 想 将 接收 到 的 cookies 与 现 有 的 cookies 合并 时 ， 我 们 可 以 
指定 Request.meta 中 的 dont merge cookies 字段 值 为 True， 代 码 如 下 : 

request with cookies = Request (url="http://www.example.com", 

cookies-['currency': 'USD', 'country': 'UY'], 


meta-['dont merge cookies': True]) 
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e encoding(string): 请 求 的 编码 ， 默 认为 UIF-8。 使 用 该 指定 的 编码 值 对 URL 和 body 进行 编码 。 

e priority(int): 请 求 的 优先 级 ， 默 认为 0。 调 度 器 依据 优先 级 来 处 理 请 求 的 顺序 。 

e dont filter(boolean): 表明 调度 器 不 需 过 滤 该 请 求 ， 默 认为 False。 当 需要 多 次 执行 相同 的 请 求 
时 ， 可 以 指定 为 True。 在 使 用 此 参数 时 必须 小 心 处 理 ， 和 否则 会 陷入 死 循环 。 

e errback(callable): 当 处 理 请 求 抛 出 异常 时 调用 该 参数 指定 的 方法 。 

e flags(list): 发 送 到 请 求 的 标志 ， 可 用 于 日 志 记 录 或 类 似 目 的 。 


Request 对 象 包含 一 些 属 性 和 方法 ， 如 表 6-1 所 示 。 
表 6-1 Request 属性 方法 


属性 或 方法 说 明 

url 请 求 的 URL, 注意 这 个 属性 值 包含 转 义 过 的 URL, 可 
以 与 原始 URL 不同， 可 用 replace(0 方 法 蔡 换 

method HTTP 请 求 方式 ， 如 GET、POST、PUT 等 

headers 一 个 字典 形式 的 请 求 头 信息 

body 包含 请 求 body 的 字符 串 ， 可 用 replace iA 

meta 包含 在 请 求 中 的 字典 形式 元 数据 。 可 以 向 其 中 添加 在 
请 求 中 会 经 常用 到 的 属性 ， 后 面 会 进行 详细 讲解 

copy) 根据 原 Request 复制 一 个 新 的 Request 

replace([url method, headers, body, cookies, meta, | 通过 关键 字 蔡 换 相 对 应 的 参数 , 返回 一 个 与 原 Request 

encoding, dont filter, callback, errback]) 具有 相同 成 员 的 Request 对 象 


特别 说 明 一 下 表 6-1 中 的 Request.meta 键 值 。 

新 生成 的 Request 的 meta 属性 值 为 空 ， 通 常情 况 下 根据 启用 的 Scrapy 组 件 进行 填充 。 
Request.meta 属性 除了 可 以 填充 自 定 义 数据 外 ， 还 包含 一 些 Scrapy 和 内 置 扩 展 可 识别 的 特定 键 值 ， 
这 些 特定 键 值 对 Request 起 到 特殊 的 限制 作用 ， 如 表 6-2 所 示 。 

表 6-2 Request.meta 属 性 


名 称 说 明 

dont redirect True 或 False， 若 设 定 为 Tme， 则 禁止 重 定向 

dont retry True 或 False， 若 设 定 为 Trme， 则 禁止 重新 抓 取 失败 的 网 页 

handle httpstatus list 列表 ， 指 定 处 理 更 多 的 HTTP 返回 状态 码 ， 默 认 处 理 2xx 的 状态 码 
handle httpstatus all True 或 False， 若 指定 为 Tme， 则 处 理 所 有 的 HTTP 返回 码 

dont merge cookies True zX False, 2$ix;E7J Tue， 则 新 的 cookies 不 与 现 有 的 cookies 合并 
cookiejar 用 来 管理 cookies， 第 9 章 模拟 登录 会 详细 介绍 

dont cache Tme 或 False， 若 设 定 为 Tue， 则 禁止 HITP 缓存 

redirect urls list， 人 允许 重 定向 的 URL 

bindaddress 执行 外 部 请 求 时 的 正 


dont obey robotstxt True 或 False， 设 定 为 True 时 忽略 网 站 Robots 协议 
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( 续 表 ) 
名 称 说 明 
download timeout 设置 下 载 超时 ， 单 位 为 秒 
download maxsize 设置 可 下 载 的 最 大 数据 
download latency 只 读 属性 值 ， 记 录 了 发 送 请 求 到 获得 响应 的 时 间 
proxy 设 定 代理 URL 
max retry times 设 定 最 大 失败 重 试 次 数 


6.1.2 Request 回调 函数 与 错误 处 理 

当下 载 器 处 理 完 毕 Request 并 生成 Response Hj, 调用 回调 函数 ,也 就 是 callback 指定 的 处 理 方 
法 ， 调 用 的 回调 函数 以 该 Response 作为 第 1 个 参数 。 

【示例 6-1】Request 回调 函数 


DI def parse pageliself, response): 


02 return scrapy.Request ("http://www.example.com/some page.html", 
03 callback-self.parse page2) 

04 

05 def parse page2(self, response): 

06 # this would log http://www.example.com/some page.html 

07 self.logger.info("Visited $s", response.url) 

08 


许多 情况 下 ， 我 们 需要 在 不 同 的 回调 函数 间 传 递 参 数 ， 这 时 就 可 以 使 用 Request.meta 来 处 理 
参数 的 传递 。 例 如 我 们 收集 用 户 信息 的 Item 中 ， 在 第 一 个 网 页 中 只 有 用 户 名 ， 而 用 户 年 龄 来 自 另 
一 个 网 页 ， 可 以 如 下 处 理 : 


【示例 6-2】 传 递 参数 


01 def parse pagel(self, response): 


02 item = MyItem() 

03 item] name: — response.css(' .name::texrt').exEract FirstET) 
04 request = scrapy.Request ("http://www.example.com/some page.html", 
05 callback-self.parse page2) 

06 request.meta['item'] = item 

07 yield request 

08 

09 def parse page2(self, response): 

10 item = response.meta['item'] 

T3 TLem]'age ] Too El .Bge:-LexE'].exETSCE FTFESET 
12 yield item 


当下 载 器 处 理 Request 抛 出 异常 时 ， 可 以 调用 errback 指定 的 异常 处 理 方法 。 
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errback 指定 的 异常 处 理 方法 接收 一 个 Twisted Failure 实例 作为 第 1 个 参数 ， 可 用 于 追踪 连接 
超时 、DNS 错误 等 。 先 看 如 下 示例 : 


【示例 6-3】 异 常 捕获 处 理 


01 import scrapy 

02 

03 from scrapy.spidermiddlewares.httperror import HttpError 

04 from twisted.internet.error import DNSLookupError 

05 from twisted.internet.error import TimeoutError, TCPTimedOutError 
06 

07 class ErrbackSpider (scrapy.Spider): 


08 name — "errback example" 

09 start urls - [ 

10 "http://www.httpbin.org/", # 正常 HTTP 200 返回 

11 "http://www.httpbin.org/status/404", # 404 Not found error 

12 "http://www.httpbin.org/status/500", # 500 服务 器 错误 

13 "http://www.httpbin.org:12345/", # 超时 无 啊 应 错误 

14 "http://www.httphttpbinbin.org/", # DNS 错误 

15 ] 

16 

17 def start requests (self): 

18 for u in self.start urls: 

19 yield scrapy.Request(u, callback-self.parse httpbin, 

20 errback-self.errback httpbin, 

2 dont filter-True) 

22 

23 det parse HLLipbin(sSelt, response): 

24 self.logger.info('Got successful response from [)]'. 
format (response.url)) 

25 # 其 他 处 理 

26 

2g def errback httpbin(self, failure): 

28 # 日 志 记 录 所 有 的 异常 信息 

29 self.logger.error(repr(failure)) 

30 

31 # 假设 我 们 需要 对 指定 的 异常 类 型 做 处 理 ， 

32 # 我 们 需要 判断 异常 的 类 型 

33 

34 if failure.check (HttpError): 

35 # HttpError 由 HttpErrorMiddleware 中 间 件 抛 出 

36 # 可 以 接收 到 非 200 状态 码 的 Response 

37 response = failure.value.response 

36 self.logger.error('HttpError on $s', response.url) 

39 


40 elif failure.check(DNSLookupError): 
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41 * 此 异常 由 请 求 Request 抛 出 

42 request = failure.request 

43 self.logger.error('DNSLookupError on $s', request.url) 
44 

45 elif failure.check(TimeoutError, TCPTimedOutError): 

46 request = failure.request 

47 self.logger.error('TimeoutError on $s', request.url) 
48 


首先 使 用 import 在 scrapy 5 twisted 中 引入 了 几 种 异 第 类 型 ， 在 start url 中 设 定 了 一 些 异 常 的 
URL。 在 start request 方法 开始 处 理 这 些 URL 时 ， 会 抛 出 异常 ， 调 用 errback_httpbin0 进 行 处 理 ， 
failure 是 一 个 Twisted Failure 实例 ，failure.checkO 检 查 该 异常 类 型 是 否 在 指定 的 参数 列表 中 。 运 行 
ER, AAMER, WB 6.2 所 示 。 


<twisted.python.failure.Failure twisted.internet.error.DNSLook 
OR: DNSLookupError on http: //www.httphttpbinbin.org/ 
‘OR; <twlsted.pvthon.tallure.Fallure scra dermiddlewares.httpe pFrror: Ignoring non-2008 response» 
J http: //www.httpbin | 
ror: Ignor ing non-200 response» 


: / / ww. httpbin. org: 12345/robo! 


eXdownloaderWmriddleware.py", line 43, in process request 
er ) )) 

out: 1 HT 3815 771 ER: HERA EASRA REN | 没有 反应 ， 连 接 

tpbin|] ERROR: «twisted.python.failure.Failure twisted.internet.error.TCPTimedOutError: TCP connection timed out: 


H ut td ‘J ELX £ 反应， Æj 


2 16:52:13 [httpbin]|ERROR: TimeoutError 


y NscriptsMoookscripts» H 


图 6.2 ERAR 
6.2 Response 


Response 表示 一 个 HITP 响应 , 通常 由 Downloader 下 载 器 生成 , 最 终 传 递 给 Spider 进行 处 理 。 
Spider 接收 Response 之 后 ， 从 中 提取 出 数据 ， 很 重要 的 一 点 是 ， 可 以 根据 不 同类 型 的 数据 选择 相 
应 的 Response 子 类 进行 处 理 。 


6.2.1 Response 类 详解 


Response 类 原型 : 

class scrapy.http.Response(url[, status-200, headers-None, body-b'', 
flags-None, request-None]) 

参数 说 明 : 

e url(string): 响应 的 URL. 

€ status(integer): HTTP 响应 码 ， 默 认为 200, 

e headers(dict): 响应 的 头 信息 。 
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€ body(bytes): 响应 body， 可 以 使 用 response.txt 转化 为 string 类 型 进行 访问 。 
e flags(list): 用 来 初始 化 Response.flags. 
e request(Request object): 初始 化 Response.request， 表 示 生 成 该 Response 的 Request. 
同样 ，Response 也 包含 一 些 属性 和 方法 ， 如 表 6-3 所 示 。 
表 6-3 Response 属性 


属性 或 方法 说 明 
url 该 啊 应 的 url 
status 啊 应 码 ， 如 200、404 


响应 头 信息 ， 可 以 使 用 gst0 获 取 指 定 头 信息 ， 如 response.headers.get('User-Agent), 
或 使 用 getlistCname) 获 取 指 定名 称 的 全 部 头 信息 
body 响应 body 
生成 Tesponse 的 Request 对象。 该 属性 是 在 所 有 请 求 和 响应 通过 Downloader 中 间 
件 时 由 Scrapy 引擎 指定 。 这 意味 着 : 
request (1) HTTP 重 定向 原始 的 请 求 指向 重 定 同 之 后 的 响应 。 
(2) Response.request.url 并 不 总 是 等 于 Response.url。 
(3) 此 属性 仅 在 spider 代码 及 Spider 中 间 件 中 可 用 
这 个 值 与 ResponseTequest 的 meta 属性 值 一 致 。Response.meta 具有 传播 性 ， 无 论 


"en 是 重 定 向 还 是 重 试 ， 都 可 以 得 到 原始 的 Requestmeta 属性 值 ， 见 示例 【6-2】 
flags EA response 标志 的 列表 ，flags 就 是 用 于 调试 的 标志 

copyO 从 当前 Response 复制 一 个 新 的 Response 

replace(fur, status, headers, | 返回 一 个 修改 了 指定 参数 的 Response X1 

body. request, flags, cls]) 

urljoin(url) 使 用 Response.url 与 相对 url 〈 相 对 地 址 ) 构成 一 个 绝对 url. 〈 全 地 址 ) 


6.2.2 Response 子 类 


下 面 介绍 一 些 和 常用 的 Response 子 类 ， 当 然 也 可 以 目 定 义 子 类 ， 添 加 指定 功能 。 
1. TextResponse 


TextResponse 原型 : 


class scrapy.http.TextResponse(url[, encoding[, ...1]1) 


TextResponse 子 类 在 Response 基 类 的 基础 上 添加 了 编码 能 力 , 因此 适合 用 来 处 理 二 进 制 数据 ， 
如 图 像 、 音 频 、 视 频 等 媒体 文件 。 
TextResponse 相 比 于 Response 添加 了 一 个 构造 参数 encoding， 其 余 参数 与 Response 一 致 ， 这 
里 仅 对 encoding 参数 进行 说 明 。 
e  encoding(string): 一 个 包含 用 于 处 理 此 响应 的 编码 类 型 的 字符 串 。 如 果 你 创建 一 个 带 有 unicode 
数据 的 TextResponse 对 象 ,此 对 象 将 使 用 这 个 指定 的 编码 类 型 进行 编码 处 理 ( 注意 响应 的 body 
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属性 是 一 个 字符 串 )、 如 果 encoding 是 None (默认 值 )， 就 在 响应 头 信息 和 响应 正文 中 查找 
编码 类 型 进行 使 用 。 
TextResponse 对 象 还 文 持 表 6-4 所 示 的 属性 和 方法 。 
表 6-4 TextResponse 属 性 和 方法 


属性 或 方法 说 明 
响应 体 ，unicode 类 型 数据 。 与 response.body.decode(response.encoding) 
text 结果 一 致 ， 会 在 内 存 中 保存 第 一 次 的 处 理 结 果 ， 无 须 每 次 转化 ， 
此 可 以 随时 使 用 response.text 


一 个 表示 该 响应 编码 类 型 的 字符 串 。 该 值 通 过 以 下 方法 顺序 获取 : 
(1) 构造 参数 encoding 指定 的 编码 类 型 

encoding (2) 在 响应 头 信息 中 Content-Type HTTP 参数 中 指定 的 编码 类 型 
(3) f£ response 响应 体 中 声明 的 编码 类 型 
(4) 通过 response 啊 应 体 推断 编码 类 型 

selector 与 response 中 selector 的 使 用 方法 一 致 ， 也 支持 xpath 与 css 选择 使 用 

follow(url, callback-None, method-'GET , 

headers-None, ppc dioe NN. 根据 ul 返回 一 个 Request 对 象 ， 用 法 与 Request 一 致 

meta-None, encoding-None, priority—0, 

dont filter-False, errback-None) 


body as unicode() 与 response.text 效果 相同 的 一 个 方法 
2. HtmlResponse 
HtmlResponse 原型 : 
class scrapy.http.HtmlResponse (url[, ...]) 
HtmlResponse 是 TextResponse 的 子 类 ， 只 不 过 是 添加 了 一 个 通过 查看 HTML meta http-equiv 
属性 来 自动 添加 编码 的 功能 。 
3. XMLResponse 
XMLResponse 原型 : 
class scrapy.http.XmlResponse(url[, ...]) 


XmlResponse 也 是 TextResponse 的 一 个 子 类 , 该 类 的 上 自动 添加 编码 功能 来 源 于 对 XML 声明 行 


Scrapy 中 国 件 


在 第 2 章 介绍 Scrapy Hh, MIER WIER P, RAITER EFES AEK: Spider ER) 
中 间 件 和 Downloader CF X28) 中 间 件 。 这 两 个 中 间 件 分 别 对 应 处 理 Response 与 Request 请 求 。 

本 章 主要 的 知识 点 有 : 

e Spider 中 间 件 介绍 

o 如何 编 写 Spider 中 间 件 

e Download 中 间 件 介绍 

e 如 何 编写 Download 中 间 件 


7.1 编写 自 定义 Spider 中 间 件 


JA 2.10.2 小 节 图 2.22 展示 的 框架 流程 图 中 可 以 看 到 ,Spider 中 间 件 (Middleware) 是 介 于 Scrapy 
引擎 与 Spider 中 间 的 处 理 机 制 的 钧 子 框架 , 可 以 添加 代码 来 处 理发 送 给 Spiders 的 Response 及 Spider 
产生 的 Item 和 Request。 


7.1.1 激活 中 间 件 


启用 Spider 中 间 件 时 , 需要 将 其 加 入 SPIDER MIDDLEWARES 设置 中 。 该 设置 位 于 settings.py 
文件 中 ， 是 字典 类 型 的 ， 其 中 键 为 中 间 件 的 路 径 ， 值 为 中 间 件 的 顺序 ， 代 码 如 下 : 
SPIDER MIDDLEWARES = { 


'myproject.middlewares.MySpiderMiddleware': 510, 
} 
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自 定义 在 settings.py 中 的 中 间 件 设置 会 与 Scrapy 内 置 的 SPIDER_MIDDWARES BASE 设置 合 
Jf EPER) ， 然 后 根据 顺序 Corder) 进行 排序 ， 最 后 得 到 启用 中 间 件 的 有 序列 表 : 第 一 个 
中 间 件 是 最 靠近 引擎 的 ， 最 后 一 个 中 间 件 是 最 靠近 Spider 的 。 

注意 ,关于 如 何 分 配 中 间 件 的 顺序 ， 请 查看 下 面 的 SPIDER_MIDDLEWARES_ BASE 设置 , 而 
后 根据 要 放置 中 间 件 的 位 置 选择 一 个 值 。 由 于 每 个 中 间 件 执行 不 同 的 动作 , 自 定 义 的 中 间 件 可 能 会 
依赖 于 之 前 (或 者 之 后 ) 执行 的 中 间 件 ， 因 此 顺序 是 很 重要 的 ， 如 果 不 能 确定 自己 的 自 定义 中 间 件 
应 该 靠近 哪个 方向 ， 就 在 500 一 700 之 间 选 择 最 为 妥当 。 

Scrapy 内 置 SPIDER MIDDWARES BASE: 


'scrapy.spidermiddlewares.httperror.HttpErrorMiddleware': 50, 
'scrapy.spidermiddlewares.offsite.OffsiteMiddleware': 500, 
'scrapy.spidermiddlewares.referer.RefererMiddleware': 700, 
'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware': 800, 
'scrapy.spidermiddlewares.depth.DepthMiddleware': 900, 


如 果 想 禁止 内 置 的 中 间 件 ， 就 必须 在 项 目的 SPIDER MIDDLEWARES 设置 中 定义 该 中 间 件 ， 
并 将 其 值 赋 为 None。 例 如 ， 想 要 关闭 off-site 中 间 件 ， 可 以 设置 : 


SPIDER MIDDLEWARES = { 
'myproject.middlewares.MySpiderMiddleware': 510, 
'scrapy.contrib.spidermiddleware.offsite.OffsiteMiddleware': None, 


7.1.2. 编写 Spider 中 间 件 


编写 Spider 中 间 件 与 管道 类 似 ， 每 个 中 间 件 组 件 都 实现 了 以 下 一 个 或 多 个 方法 的 Python 类 。 

1. process spider input(response,spider) 

说 明 : 

当 参 数 response 通过 参数 spider 中 间 件 时 ， 该 方法 被 调用 ， 处 理 该 response， 即 在 下 载 器 中 间 
件 处 理 完成 后 ， 马 上 要 进入 某 个 回调 函数 parse_xx0 前 被 调用 。 

参数 : 

e response ( Response 对 象 ): 被 处 理 的 Response, 

e spider ( Spider 对 象 ); i£ Response 对 应 的 Spider, 

返回 值 : 

该 方法 应 该 返回 None 或 者 抛 出 一 个 异常 。 如 果 其 返回 None，Scrapy 将 会 继续 处 理 该 
Response, 调用 所 有 其 他 的 中 间 件 直到 Spider 处 理 该 Response。 如 果 其 抛 出 一 个 异常 Cexception) , 
Scrapy 将 不 会 调用 任何 其 他 中 间 件 的 process spider input0 方 法 ， 而 是 调用 Request 的 errback。 
errback 的 输出 将 会 从 男 一 个 方 回 被 重新 输入 中 间 件 链 中 ,使 用 process_spider_output0 方 法 来 处 理 ， 
当 其 抛 出 异常 时 调用 process spider exception()。 
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2. process spider output(response,result,spider) 

说 明 : 

当 Spider 处 理 完 毕 Response 返回 result 时 , 即 在 爬虫 运行 yield item 或 者 yield scrapy.Request() 
的 时 候 调 用 该 方法 。 

参数 : 

e response (Response 对 象 ): 生成 该 输出 的 Response. 

e result ( 包含 Request 或 Item 对 象 的 可 和 迭代 对 象 ): Spider 返回 的 result, 

e spider ( Spider x] $ ) 结果 被 处 理 的 Spider, 

返回 值 : 

该 方法 必须 返回 包含 Request 或 Item RAJAR R. WREE Item， 就 会 被 交 给 Pipeline; 
如 果 是 Request， 就 会 被 交 给 调度 器 ， 然 后 下 载 嚣 中间 件 才 会 开始 运行 。 

3. process spider exception(response,exception,spider) 

说 明 : 

当 spider 或 (其 他 spider 中 间 件 的 )process_spider inputO 抛 出 异常 时 ， 该 方法 被 调用 。 

参数 : 


e response (Response 对 象 ): 异常 抛 出 时 处 理 的 Response. 
e exception ( Exception 对 象 ); 抛 出 的 异常 。 
e spider ( Spider 对 象 ) 抛 出 异常 的 Spider. 


返回 值 : 


该 方法 必须 返回 None 或 者 一 个 包含 Response 或 Item XJ &IJnI3E 4 2&  Citerable) . 

如 果 返 回 None，Scrapy 将 继续 处 理 该 异常 ， 调 用 中 间 件 链 中 的 其 他 中 间 件 的 
process_spider_exception0 方 法 ， 直 到 所 有 中 间 件 都 被 调用 ， 该 异常 到 达 引 擎 (异常 将 被 记录 并 被 
忽略 ) 。 

如 果 其 返回 一 个 可 和 迭代 对 象 ， 那 么 中 间 件 链 的 process spider output0 方 法 将 被 调用 ， 其 他 的 
中 间 件 的 process spider exception0 将 不 会 被 调用 。 


4. process start requests(start requests, spider) 


说 明 : 
该 方法 以 Spider 启动 的 Request 为 参数 被 调用 。 
参数 : 


e start requests ( 包含 Request 的 可 迭代 对 每 ) start requests 列表 。 
e spider ( Spider 对 象 ); 启动 start requests 的 Spider, 
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返回 值 : 
该 方法 接收 的 是 一 个 可 和 友 代 对 象 〈start_ requests 参数 ) ， 而 且 必 须 返 回 一 个 包含 Request 对 象 
的 可 进 代 对 象 。 


7.2 Spider 内 置 中 间 件 


Spider 己 经 内 置 了 一 些 可 以 辅助 候 取 的 中 间 件 , 通过 这 些 中 间 件 的 启用 、 配置 可 以 方便 地 进行 
扑 虫 的 优化 ， 提 高 仆 取 成 功率 与 效率 。 


7.2.1 DepthMiddleware JE B RE rh [B] ft 


路 径 : 
class scrapy.contrib.spidermiddleware.depth.DepthMiddleware 

作用 : 

DepthMiddleware 是 一 个 用 于 追踪 被 肘 取 网 站 中 每 个 Request 的 爬 取 深度 的 中 间 件 。 深 度 是 
start urls 中 定义 URL 的 相对 值 , 也 就 是 相对 URL 的 深度 .例如 定义 URL 73 http://www.example.com/ 
article/， 设 置 DEPTH LIMIT=1， 那 么 限制 肘 取 的 只 能 是 此 URL 下 一 级 的 网 页 。 

它 可 用 于 限制 肘 取 的 最 大 深度 ， 并 根据 深度 控制 请 求 优先 级 等 。 

DepthMiddleware 可 以 通过 下 列 设 置 进行 配置 : 

e DEPTH LIMIT: 已 取 所 允许 的 最 大 深度 ， 如 果 为 0， 就 没有 限制 。 

e DEPTH STATS: 是 否 收集 爬 取 深度 统计 数据 。 

e DEPTH PRIORITY: 是 否 根 据 Request 深度 对 其 安排 优先 级 。 


7.2.2 HttpErrorMiddleware 失败 请 求 处 理 中 间 件 


路 径 : 

class scrapy.contrib.spidermiddleware.httperror.HttpErrorMiddleware 

作用 : 

过 滤 出 所 有 失败 (错误 ) 的 HTTP Response， 疏 虫 不 需要 消耗 更 多 的 资源 ， 设 置 更 为 复杂 的 
迎 辑 来 处 理 这 些 异 常 Request。 根 据 HTTP 标准 ， 返 回 值 在 200-300 的 为 成 功 的 Response. 

如 果 想 处 理 在 这 个 范围 之 外 的 Response， 可 以 通过 Spider 的 handle httpstatus list 属性 或 
HTTPERROR ALLOWED CODES 设置 来 指定 Spider 能 处 理 的 Response 返回 值 。 

例如 ， 如 果 想 要 处 理 返 回 值 为 404 的 Response， 那 么 可 以 这 么 做 : 


class MySpider (CrawlSpider): 
handle httpstatus list = [404] 
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Request.meta 中 的 handle httpstatus list 键 也 可 以 用 来 指定 每 个 请 求 所 允许 的 啊 应 码 。 也 可 以 设 
置 handle httpstatus all 键 值 为 True 来 处 理 任 何 啊 应 状态 码 的 请 求 。 


除非 必要 且 目 的 明确 ， 否 则 不 推荐 处 理 非 200 状态 码 的 响应 。 


HttpErrorMiddleware 部 分 设置 项 : 


e HITPERROR ALLOWED CODES: 默认 为 [], 传递 该 列表 中 所 有 非 200 状态 码 的 Response. 
e HTIIPERROR ALLOW ALL: RUA False, 传递 所 有 Response， 无 论 其 状态 码 为 何 值 。 


7.2.3 OffsiteMiddleware 过 滤 请 求 中 间 件 


路 径 : 

class scrapy.contrib.spidermiddleware.offsite.OffsiteMiddleware 

作用 : 

过 滤 掉 所 有 Spider MA zs 3: BL 4A P TJ URL 请 求 。 

该 中 间 件 过 滤 掉 所 有 主机 名 不 在 Spider 的 allowed domains 属性 值 中 的 Request。 此 属性 中 域 
名 的 子 域 名 是 被 允许 的 ， 如 果 allow domains 中 包含 www.example.com， 那 么 允许 
child.www-.example.com， 但 不 论 是 wwwl.example.com 还 是 example.com 都 不 允许 。 

当 Spider 返回 一 个 主机 名 不 在 该 Spider 履 盖 范围 内 的 Request 时 ， 该 中 间 件 将 会 做 一 个 类 似 
于 下 面 的 日 志 记 录 : 


DEBUG: Filtered offsite request to 'www.othersite.com': «GET 
http://www.othersite.com/some/page.html» 


为 了 避免 在 日 志 中 记录 太 多 无 用 信息 ， 只 会 对 每 个 新 过 滤 的 域名 记录 一 次 。 例 如 ， 如 果 过 滤 
出 另 一 个 www.othersite.com 请 求 ， 就 不 会 有 新 的 记录 。 但 如 果 过 滤 出 someothersite.com 请 求 ， 就 
会 增加 一 条 记录 信息 (第 一 次 过 滤 时 增加 记录 ) 。 

WR Spider 中 没有 定义 allewed domains 属性 ， 或 该 属性 为 空 ， 此 offsite 中 间 件 将 不 会 过 滤 任 
何 Request。 

如 果 Request 设置 了 dont filter 属性 ,即使 该 Request 的 域名 不 在 allow domain 属性 值 中 ,offsite 
中 间 件 也 会 允许 该 Request。 


7.24 RefererMiddleware 参考 位 置 中 间 件 


路 径 : 

class scrapy.contrib.spidermiddleware.referer.RefererMiddleware 
作用 : 

根据 生成 的 Response 的 URL 来 填充 Request Referer 信息 。 
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RefererMiddleware 有 一 个 关键 的 设置 项 : REFERER ENABLED, UX Tre, 表示 是 否 启 用 
referer 中 间 件 。 


7.2.5 UrlLengthMiddleware 网 址 长 度 限制 中 间 件 


路 径 : 


class scrapy.contrib.spidermiddleware.urllength.UrlLengthMiddleware 


作用 : 
过 滤 URL 长 度 比 URLLENGTH LIMIT 的 值 大 的 Request. 
UrlLengthMiddleware 有 一 个 关键 配置 URLLENGTH LIMIT, Xr ASER URL 最 长 的 长 度 。 


7.3 编写 自 定 义 下 载 器 中 间 件 


下 载 器 中 间 件 是 介 于 Scrapy 的 Request 与 Response 中 间 的 、 用 于 处 理 请 求 与 啊 应 的 钧 子 框架 ， 
它 是 一 个 轻 量 级 的 底层 系统 ， 用 于 全 局 修改 Scrapy 的 请 求 与 啊 应 。 


7.3.1 激活 中 间 件 


与 激活 Spider 中 间 件 一 样 ， 激 活 下 载 器 中间 件 需要 将 其 加 入 DOWNLOADER MIDDLEWARES 
设置 中 ， 该 设置 位 于 settings.py 文件 中 ， 是 一 个 字典 类 型 。 其 中 ， 键 为 中 间 件 的 路 径 ， 值 为 中 间 件 
的 执行 顺序 ， 代 码 如 下 : 


DOWNLOADER MIDDLEWARES = { 
'myproject.middlewares.CustomDownloaderMiddleware': 543, 


) 


自 定义 在 setting.py 中 的 下 载 器 中 间 件 会 与 Scrapy 中 定义 DOWNLOADER MIDDLEWARES BASE 
设置 相合 并 《〈 并 不 会 履 盖 ) ,然后 根据 顺序 进行 排序 ， 最 终 得 到 一 个 启用 的 中 间 件 有 序列 表 。 第 一 
个 中 间 件 靠近 Serapy 引擎 ， 最 后 一 个 中 间 件 靠近 下 载 器 。 

下 载 器 中 间 件 的 顺序 同样 很 重要 ， 由 于 每 个 中 间 件 执行 不 同 的 动作 ， 因 此 上 自 定 义 的 中 间 件 可 
能 会 依赖 于 之 前 (或 者 之 后 ) 执行 的 中 间 件 。 参 考 以 下 DOWNLOADER MIDDLEWARES BASE 
顺序 来 设置 自 定 义 中 间 件 的 顺序 : 

'scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware': 100, 
'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware': 300, 
'scrapy.downloadermiddlewares.downloadtimeout. 


DownloadTimeoutMiddleware': 350, 
'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware': 


400, 
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': 500, 


'scrapy.downloadermiddlewares. 


'scrapy.downloadermiddlewares. 
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retry.RetryMiddleware': 550, 
ajaxcrawl.AjaxCrawlMiddleware': 560, 


'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware': 580, 
'scrapy.downloadermiddlewares.httpcompression. 
HttpCompressionMiddleware': 590, 
'scrapy.downloadermiddlewares.redirect.RedirectMiddleware': 600, 
'scrapy.downloadermiddlewares.cookies.CookiesMiddleware': 700, 
'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 750, 
'scrapy.downloadermiddlewares.stats.DownloaderStats': 850, 
'scrapy.downloadermiddlewares.httpcache.HttpCacheMiddleware': 900, 


如 果 想 关闭 在 DOWNLOADER MIDDLEWARES BASE 中 定义 的 默认 启用 的 中 间 件 , 就 必须 
在 项 目的 DOWNLOADER MIDDLEWARES 中 设置 该 中 间 件 的 顺序 值 为 None。 例 如 ， 要 禁用 
user-agent 中 间 件 : 


DOWNLOADER MIDDLEWARES { 
'myproject.middlewares.CustomDownloaderMiddleware': 543, 


'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None, 


7.3.2 ”编写 下 载 器 中 间 件 


编写 下 载 器 中 间 件 与 Spider 中 间 件 一 样 ， 都 是 实现 以 下 一 个 或 几 个 方法 的 Python 类 : 


1. process request(request, spider) 


说 明 : 

当 Request 经 过 下 载 器 中 间 件 时 调用 该 方法 。 
参数 : 

e request ( Request 对 象 ) 处 理 的 Request, 

e spider ( Spider 对 象 )， 该 Request 对 应 的 Spider. 
返回 值 : 


该 方法 必须 返回 None, Response 对 象 、Request X RER IgnoreRequest 异常 其 中 之 一 。 

如 果 其 返回 None，Scrapy 将 执行 其 他 中 间 件 相应 的 方法 继续 处 理 该 Request， 直 到 合适 的 下 
载 器 处 理 函 数 被 调用 ， 该 Request 被 执行 处 理 ( 对 应 的 Response 被 下 载 ) 。 

如 果 返 回 Response 对 象 ，Scrapy 将 不 再 调用 其 他 中 间 件 的 process request() 或 
process_exception0 方 法 ， 或 相应 地 下 载 图 数 ， 并 将 返回 该 Response。 已 启用 的 中 间 件 的 
process response() 方 法 会 在 每 个 Response 返回 时 被 调用 。 

如 果 返 回 Request 对 象 ，Scrapy 会 停止 调用 process request0 方 法 ， 并 重新 调度 处 理 返回 的 
Request。 当 新 返回 的 Request 被 执行 后 ， 将 会 根据 下 载 的 Response 调用 相应 的 中 间 件 处 理 。 
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如 果 其 抛 出 一 个 IgnoreRequest 异常 ， 己 启用 下 载 中 间 件 的 process exceptionQ77 13: z 18 Us] H1 « 
如 果 没 有 任何 一 个 中 间 件 处 理 该 异常 ，Request.errback 会 被 调用 。 如 果 没 有 代码 处 理 抛 出 的 异常 ， 
那么 该 异常 被 忽略 且 不 记录 到 日 志 中 。 

2. process response(request,response,spider) 

说 明 : 

当 Response 经 过 下 载 器 中 间 件 时 调用 该 方法 。 

参数 : 


e request ( Request 对 象 ) Response 所 对 应 的 Request, 
e response ( Response 对 象 ): 被 处 理 的 Response, 
e spider ( Spider 对 象 ); Response 所 对 应 的 Spider. 


返回 值 : 

该 方法 必须 返回 Response 对 象 、Request X RER IgnoreRequest 异常 其 中 之 一 。 

如 果 其 返回 一 个 Response 〈 可 以 与 处 理 的 Response 相同 ， 也 可 以 是 全 新 的 对 象 ) ， 那 么 该 
Response 会 被 其 他 中 间 件 的 process response()7; i2; 4-388 

如 果 其 返回 一 个 Request 对 象 ， 那 么 中 间 件 停止 处 理 ， 返 回 的 Request 会 被 重新 调度 下 载 。 该 
处 理 类 似 于 process requestO 处 理 返回 的 Request 的 步骤 。 

如 果 其 抛 出 一 个 IgnoreRequest 异常 ， 那 就 调用 Request.errback。 如 果 没 有 代码 处 理 抛 出 的 异 
常 ， 那 么 该 异常 被 忽略 且 不 记录 在 日 志 中 。 

3. process exception(request, exception, spider) 

说 明 : 


当下 载 处 理 器 (download handler) 或 process request() (下 载 中 间 件 ) 抛 出 异常 (包括 
IgnoreRequest 异常 ) 时 ，Scrapy 调用 process exception()。 


参数 : 


e request (Request 对 象 ) 产生 异常 的 Request。 
e exception ( Exception 对 象 ) 抛 出 的 异常 。 
e spider ( Spider 对 象 ) Request 对 应 的 Spider. 


返回 值 : 


该 方法 必须 返回 None. Response 对 象 或 Request 对 象 其 中 之 一 。 

如 果 其 返回 None，Scrapy 将 会 继续 处 理 该 异常 ， 接 着 调用 已 启用 的 其 他 中 间 件 的 
process_exception0 方 法 ， 直 到 所 有 中 间 件 都 被 调用 完毕 ， 并 且 默 认 异 常 处 理 执行 。 

如 果 其 返回 一 个 Response 对 象 ， 就 调用 已 启用 中 间 件 的 process_response0 方 法 。Scrapy 将 不 
会 调用 任何 其 他 中 间 件 的 process exception)77 3X: - 

如 果 其 返回 一 个 Request 对 象 ， 就 返回 的 Request 将 会 被 重新 调用 下 载 。 这 将 停止 执行 中 间 件 
的 process exception) Ù iX: . 
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7.4 下 载 器 内 置 中 间 件 


同样 ， 下 载 器 内 置 了 一 些 非常 有 用 的 中 间 件 ， 可 以 方便 地 配置 下 载 参数 ， 如 Cookie、 代 理 等 。 
下 面 介绍 一 些 常 用 的 中 间 件 。 


1.4.1 CookiesMiddleware 


FEE: 

class scrapy.contrib.downloadermiddleware.cookies.CookiesMiddleware 

TERI: 

该 中 间 件 可 以 使 用 Cookie ERU) sis. idiok fI Web Server 发 送 的 Cookie， 并 在 之 后 的 
Request 请 求 中 发 送 回 去 ， 就 像 操 作 浏 览 器 一 样 。 

CookiesMiddleware 设置 项 : 


e COOKIES ENABLE: 默认 为 True, 该 配置 指定 是 否 启 用 cookies 中 间 件 ， 如 果 指 定 为 False， 
就 不 会 使 用 cookies, 需要 注意 的 是 ， 如 果 Requestmeta 参数 dont merge cookies 指定 为 True, 
那么 无 论 COOKIES ENABLE 指定 为 何 值 ，Request 都 不 会 向 服务 器 传递 任何 cookies, 
Response 接收 到 的 cookies 也 不 会 做 任何 处 理 。 

e COOKIES DEBUG: 默认 为 False， 如 果 该 参数 指定 为 Tme， 那 么 将 会 记录 所 有 的 请 求 发 送 
的 cookies 和 响应 接收 到 的 cookies, 


很 有 用 的 一 点 是 ， 每 个 蜗 蛛 爬虫 可 以 保存 多 个 cookies， 只 需要 为 Request.meta 指定 cookiejar 
值 。 如 下 所 示 ， 通 过 传递 不 同 的 标识 符 使 用 不 同 的 Cookie: 


for i, url in enumerate (urls): 
yield scrapy.Request(url, meta-('cookiejar': i], 
callback-self.parse page) 


需要 注意 的 是 ， 在 Request.meta 中 cookiejar 是 没有 黏 性 的 。 上 例 中 ， 在 调用 parse page 时 ， 
需要 将 上 次 请 求 的 cookiejar 传递 过 来 才能 继续 使 用 : 
def parse page(self, response): 
# do some processing 
return scrapy.Request ("http://www.example.com/otherpage", 
meta-(['cookiejar': response.meta['cookiejar']], 
callback-self.parse other page) 
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1.4.2 


Scrapy P928 msc, 


HttpProxyMiddleware 


路 径 : 
class scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware 

TERI: 

此 中 间 件 可 以 通过 在 Request.meta 中 添加 proxy 属性 值 为 该 请 求 设 置 HTTP 代理 , 默认 获取 代 
理 的 方法 是 通过 以 下 环境 变量 来 获取 代理 地 址 : 

e http proxy 

e https proxy 

© no proxy 

在 settings.py 中 的 设置 : 


e HITPPROXY ENABLED: 默认 为 False， 表 示 是 否 激活 HttpProxyMiddleware。 
e HITPPROXY AUTH ENCODING: 代理 有 验证 时 的 账户 信息 编码 方式 。 


7.5 ”实战 : 为 爬虫 添加 中 间 件 


【示例 7-1】 为 前 面 的 爬虫 项 目 添加 中 间 件 
了 解 朴 虫 中 间 件 与 下 载 器 中 间 件 之 后 ， 我 们 为 第 5 章 的 项 目 分 别 添 加 一 个 Spider 中 间 件 与 
Downloader 中 间 件 。middlewares.py 代码 如 下 : 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
11 
12 
13 
14 
15 
16 
17 
18 


J = a i TE = 


Define here the models for your spider middleware 


See documentation in: 


+*+ o cHSo 砷 che 


https://doc.scrapy.org/en/latest/topics/spider-middleware.html 


from scrapy import signals 
import scrapy 
import random 


class LianjiaSpiderMiddleware (object): 


利用 Scrapy 数据 收集 功能 记录 相同 小 区 的 数量 


der Init tself sSbubts) 
self.stats = stats 


19 
20 
"A 
22 
23 
24 
29 
26 
21 
28 
29 
30 
aT 
32 
33 
34 
33 
36 
37] 
38 
34g 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
oT 
52 
23 
54 
55 
56 
al 
38 
nu 
60 
61 
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Qclassmethod 
def from crawler(cls, crawler): 
return cls(stats-crawler.stats) 


def process spider output (self, response, result, spider): 
从 item 中 获取 小 区 名 称 ， 在 数据 收集 中 记录 相同 小 区 数量 
:param response: 
:param result: 
:param spider: 
Sein 
for item in result: 
if isinstance(item,scrapy.Item): 
# 从 result 中 的 item 获取 小 区 名 称 
community name = item['community name'] 
# 在 数据 统计 中 为 相同 的 小 区 增加 数量 值 
self.stats.inc value(community name) 
yield item 


class LianjiaDownloaderMiddleware (object): 


为 请 求 添加 代理 
def — init ‘self,proxy list): 
self.proxy list - proxy list 


QGclassmethod 
def from crawler(cls, crawler): 
+ 从 settings .py 中 获取 代理 列表 
return cls( 
proxy list-crawler.settings.get('PROXY LIST') 


det process requestisett, request, spider]: 
# 从 代理 列表 中 随机 选取 一 个 添加 至 请 求 
proxy - random.choice(self.proxy list) 


request.meta['proxy'] = proxy 


def spider opened(selFf, spider): 


spider.logger.info('Spider opened: $s' $ spider.name) 
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Scrapy WEE sc, 


在 LianjiaSpiderMiddleware 中 ,我 们 使 用 了 Serapy 的 数据 统计 功能 ， 此 功能 在 8.3 节 会 详细 介 


绍 ， 读 者 


只 需 知道 在 本 章 代 码 中 可 以 统计 指定 对 象 的 次 数 即 可 。 


在 LianjiaDownloaderMiddleware 中 ， 我 们 从 settings.py 中 获取 代理 列表 ， 然 后 随机 选取 一 个 
添加 至 请 求 中 ,代理 列表 读者 可 以 从 网 上 获取 ， 有 条 件 的 读者 可 以 使 用 付费 代理 ， 连 接 起 来 会 更 稳 
定 。setting.py 修改 如 下 : 


01 
02 
03 
04 
05 
06 
07 
08 


09 
10 
11 
12 
13 
14 
13 
16 
EET 
18 
19 
20 
z1 
22 
23 


i Enable or disable spider middlewares 

# See https://doc.scrapy.org/en/latest/topics/spider-middleware.html 

SPIDER MIDDLEWARES = { 
'lianjia.middlewares.LianjiaSpiderMiddleware': 543, 


i Enable or disable downloader middlewares 
# See https: //doc.scrapy.org/en/latest/topics/ 
downloader-middleware.html 
DOWNLOADER MIDDLEWARES = { 
'lianjia.middlewares.LianjiaDownloaderMiddleware': 543, 


PROXY LIST - [ 
'http://116.209.57.41:9999', 
'http://117.90.252.151:9999', 
'http://221.239.86.26:32228', 
'http://117.95.12.239:9999', 
'http://18.223.141.123:80', 
'http://121.232.148.113:9000', 
'http://120.198.230.65:8080', 
'http://113.122.168.105:9999', 
'http://218.95.48.156:9000', 
'http://115.223.207.109:9000', 
'http://183.3.221.186:8118', 
'http://114.234.81.72:9000', 
'http://111.177.177.87:9999', 
'http://60.217.64.237:45091', 
'http://36.248.129.240:9999' 


] 


运行 结果 如 图 7.1 所 示 ， 可 以 看 到 每 一 个 小 区 出 现 的 次 数 都 被 统计 到 。 
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retry/reason count/twisted.internet.error.TimeoutError': 9, 


scheduler/dequeued': 3 
/dequeued/memory': 


scheduler /enqueued': 38, 


' scheduler /enqueued/memory': 38, 


'start time': datetime.datetime 
万 年 花城 二 期 ':; 1, 

E EAT : 

三 环 新 城 7 写 『 


71 中 间 件 统计 信息 


Scrapy 配置 与 内 置 服务 


Scrapy 框架 中 可 以 通过 一 系列 的 配置 来 定制 组 件 ， 包 括 核心 (Core〉、 插 件 (Extension) 、 
管道 (Pipeline) 及 Spider 组 件 。 同 时 不 同 的 内 置 服务 也 需要 在 配置 中 进行 设 定 ， 如 邮件 服务 等 。 
进行 合理 的 配置 才能 使 Scrapy 正常 工作 。 

本 章 主要 的 知识 点 有 : 

e Scrapy 基本 配置 

e Scrapy 常用 服务 


8.1 Scrapy 配置 简介 


配置 的 基础 结构 提供 了 键 值 映射 方式 的 全 局 命名 空间 ， 也 就 是 说 可 以 从 任何 位 置 访问 这 些 属 
性 。 通 过 代码 可 以 从 中 提取 配置 值 。 可 以 通过 不 同 的 机 制 来 设 定 配置 信息 。 本 节 将 介绍 Scrapy 基 
本 配置 。 


8.1.1 命令 行 选项 (优先 级 最 高 ) 


执行 命令 行 命令 时 , 如 果 在 项 目 内 执行 , 默认 就 使 用 项 目 内 配置 , 即 settings.py 中 的 配置 信息 ， 
如 果 在 项 目 外 执行 ,就 使 用 默认 的 命令 行 配置 。 不 过 在 任何 地 方 执行 命令 行 命令 ,都 可 以 使 用 命 
行 参数 -s (或 --set) 来 覆盖 一 个 《或 更 多 ) 配置 信息 ， 因 为 命令 行 的 参数 配置 具有 最 高 的 优先 级 ， 


scrapy crawl myspider -s LOG FILE-scrapy.log 


8.1.2 
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每 个 爬虫 内 配置 


项 目 内 每 一 个 编写 的 爬虫 默认 使 用 的 都 是 项 目 配置 ， 即 settings.py 中 的 配置 。 但 我 们 仍然 可 以 
为 每 一 个 朴 虫 设 定 不 同 的 配置 ， 比 如 有 些 爬 虫 需要 调用 某 些 中 间 件 ， 而 有 些 爬 虫 则 不 需要 ， 只 需要 
设 定 custom settings 即 可 ， 示 例如 下 。 


01 
02 
03 
04 
05 
06 
07 
08 


8.1.3 


import scrapy 


class MySpider (scrapy.Spider): 


name — 'myspider' 


custom settings = { 
"SOME SETTING': 'some value', 


项 目 设 置 模块 


通过 scrapy startproject 命令 创建 项 目 之 后 ， 都 会 生成 一 个 settings.py 文件 ， 该 文件 就 是 该 项 目 
的 配置 文件 ， 默 认 的 配置 如 下 : 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
11 
1s 
2g 
14 
T3 
16 
LAT 
18 
19 
20 
2a 
zz 
23 


f — Éodang: HbLt-H —*- 


Scrapy settings for segmentfault project 


For simplicity, this file contains only settings considered important or 


commonly used. You can find more settings consulting the documentation: 


https://doc.scrapy.org/en/latest/topics/settings.html 
https://doc.scrapy.org/en/latest/topics/downloader-middleware.html 


THso cHso 间 着 cH co cH HH 


https://doc.scrapy.org/en/latest/topics/spider-middleware.html 


# Scrapy 项 目 名 字 
BOT NAME = 'segmentfault' 


+ Scrapy 搜索 spider 的 模块 列表 
SPIDER MODULES = ['segmentfault.spiders'] 


# 使 用 爬虫 创建 命令 genspider AER ERAH 


NEWSPIDER MODULE = 'segmentfault.spiders' 


+ 默认 的 USER _AGENT， 使 用 BOT NAME 配置 生成 ， 建 议 覆 盖 
fUSER AGENT = 'segmentfault (*http://www.yourdomain.com)"' 
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24 + 如 果 启 用 ，Scrapy 则 会 遵守 网 站 Rebots .txt 协议 ， 建 议 设置 为 False 
25 ROBOTSTXT OBEY = True 

26 

27 € 配置 Scrapy 最 大 并 发 数 ， 默 认为 32， 一 般 需 要 增 大 设置 

28 #CONCURRENT REQUESTS = 32 

29 

30 4 为 同一 个 站 点 设置 下 载 延 到 

31 4 See https://doc.scrapy.org/en/latest/topics/settings.html£$download-delay 
32 4 See also autothrottle settings and docs 

33 £DOWNLOAD DELAY = 3 

34 + 下 载 延 迟 的 设置 只 会 根据 以 下 两 个 中 的 一 个 生效 

35 + 对 单个 网 站 设置 最 大 的 请 求 并 发 数 

36 £$CONCURRENT REQUESTS PER DOMAIN = 16 

37 + 对 单个 IP 设置 最 大 的 请 求 并 发 数 

38 #CONCURRENT REQUESTS PER IP = 16 

39 

40 # 禁用 Cookie, $ True 启用 ， 建 议 为 False 

41 #COOKIES ENABLED = False 

12 # 关闭 Telent 控制 台 ， 默 认 启 用 

43 £$TELNETCONSOLE ENABLED = False 

44 

45 $ 默认 的 请 求 头 ， 根 据 爬 取 网 站 覆盖 

46 #DEFAULT REQUEST HEADERS = { 

47] +  'Accept': 'text/html,application/xhtml-*xml,application/xml;q-0.9, 


*/*:q—-0.8', 
48 # 'Accept-Language': 'en', 
49 £1) 
50 


51 + 启用 Spider MEH p4 

52 £4 See https://doc.scrapy.org/en/latest/topics/spider-middleware.html 
53 #5SPIDER MIDDLEWARES = { 

54 # 'segmentfault.middlewares.SegmentfaultSpiderMiddleware': 543, 

55 €] 

56 

57 # 启用 Downloader 下 载 器 中 间 件 

58 4 See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html 
59 £$DOWNLOADER MIDDLEWARES = { 


60 id 'segmentfault.middlewares.SegmentfaultDownloaderMiddleware': 543, 
61 4| 

62 

63 + 启用 扩展 


64 # See https://doc.scrapy.org/en/latest/topics/extensions.html 
65 £4EXTENSIONS = { 

66 id 'scrapy.extensions.telnet.TelnetConsole': None, 

67 #} 


68 
69 
70 
Jal 
N 
73 
74 
13 
76 
EN 
78 
79 
80 
81 
82 
83 
84 
85 
86 
87 
88 


89 
90 
zal 
gt 
93 
94 
95 
96 
97 
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# 配置 管道 信息 
# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html 


#ITEM PIPELINES = { 


E 'segmentfault.pipelines.SegmentfaultPipeline': 300, 
t] 
# 启用 配置 AutoThrottle 扩展 ， 默认 禁用 , 建议 启用 


# See https://doc.scrapy.org/en/latest/topics/autothrottle.html 
TfAUTOTHROTTLE ENABLED = True 

+ 初始 化 下 载 延 迟 

#AUTOTHROTTLE START DELAY = 5 

* 高 延迟 下 最 大 的 下 载 延迟 

#AUTOTHROTTLE MAX DELAY = 60 

* Scrapy 请 求 应 该 并 行 发 送 每 个 远程 服务 器 的 平均 数量 

SAUTOTHROTTLE TARGET CONCURRENCY = 1.0 

# 启用 调试 模式 ， 统 计 每 一 个 响应 状态 数据 


#AUTOTHROTTLE DEBUG = False 


# 启用 和 配置 HTTP 缓存 

# See https://doc.scrapy.org/en/latest/topics/ 
downloader-middleware.html£&httpcache-middleware-settings 

THTTPCACHE ENABLED = True 

* HTTP 缓存 过 期 时 间 

#HTTPCACHE EXPIRATION SECS = 0 

+ HTTP 缓存 目录 

#HTTPCACHE DIR = 'httpcache' 

+ HTTP 缓存 忽略 的 啊 应 状态 码 

#HTTPCACHE IGNORE HTTP CODES = [] 

+ HTTP 缓存 存储 目录 


#HTTPCACHE STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage' 


settings.py 配置 文件 很 重要 ， 当 我 们 编写 完 管 道 、 中 间 件 ， 使 用 扩展 时 ， 一 定 要 在 settings.py 
中 局 用， 才能 够 正常 使 用 。 


8.1.4 


默认 的 命令 行 配置 


在 项 目 内 使 用 命令 行 时 ， 默 认 的 配置 为 项 目 配置 ， 在 项 目 外 使 用 命令 行 时 ， 默 认 使 用 Scrapy 
全 局 配置 。 
在 项 目 中 使 用 : 


»scrapy settings --get BOT NAME 


scrapybot 
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在 项 目 外 使 用 : 


import scrapy 
>scrapy settings --get BOT NAME 
scrapybot 


8.1.5 ”默认 全 局 配置 优先 级 最 低 ) 


Scrapy 默认 全 局 配置 是 所 有 配置 信息 的 基础 ， 每 种 配置 都 是 在 此 基础 上 进行 履 盖 的 。 可 以 通 
过 scrapy.settings.default settings 访问 全 局 配置 。 由 于 全 局 配置 的 项 目 很 多 ， 因 此 这 里 不 一 一 介绍 ， 
读者 可 参考 Scrapy 官方 文档 进行 查看 Chttps://docs.scrapy.org/en/latest/topics/settings.html) . 


8.2 日 m 


志 是 查看 程序 运行 状态 的 主要 方法 ， 特 别 是 程序 运行 出 错时 ， 主 要 根据 日 志 来 检查 错误 ， 
进行 修正 。Scrapy 使 用 Python 内 置 的 日 志 系统 记录 事件 日 志 ， 在 使 用 日 志 功 能 之 前 需要 先进 行 一 
些 配置 。 


LOG FILE: 指定 日 志文 件 ， 如 果 为 None， 就 使 用 标准 错误 输出 。 
LOG ENABLED: 是 否 启 用 上 日志， 为 True HÈM $, A False 时 不 启用 。 

e LOG ENCODING: 使 用 指定 的 编码 方式 输出 日 志 ， 默 认为 UTF-8. 

e LOG LEVEL: 日 志 记 录 的 最 低级 别 .可 选 的 级 别 有 CRITICAL, ERROR, WARNING, INFO, 
DEBUG。 默 认为 DEBUG， 打 印 所 有 记录 。 

e LOG FORMAT: 日 志 输 出 格式 ， 默 认为 (asctime)s [%(name)s] %(levelname)s: ?o(message)s'. 
LOG DATEFORMAT: 日 志 日 期 记录 格式 ， 默 认 格 式 为 WY-%m-%d 96H:90M:96S' . 
LOG STDOUT: 默认 为 False， 如 果 为 Trlue， 那 么 表示 进程 所 有 的 标准 输出 (及 错误 ) 将 被 
重 定向 到 log 中。 例如 执行 print hello'， 其 将 会 在 Scrapy log P EF. 


Log 的 使 用 非常 简单 : 


import scrapy 

>>> import logging 

>>> logger-logging.getLogger('LogTest') 
>>> logger.warning('warning message') 
WARNING:LogTest:warning message 

»»» 


在 每 一 个 Scrapy 爬虫 实例 中 都 提供 了 一 个 可 以 直接 使 用 的 logger， 代 码 如 下 : 


01 import scrapy 
02 
03 class MySpider(scrapy.Spider): 
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04 

05 name — 'myspider' 

06 start urls = ['http://quotes.toscrape.com'] 
07 

08 def parse(self, response): 


09 self.logger.info('Parse function called on $s', response.url) 


输出 结果 如 图 8.1 所 示 。 


Terminal 
2019-81-29 23:21: crapy,core ,engine] INFO: Spider opened 
2019-91-29 23:21:20 [scrapy 


y.extensions.logstats] INFO: Crawled O pages (at 0O pages/min), scraped © items (at 9 items/min) 


901-29 23:21:20 [scrapy.extensions.telnet] DEBUG: Telnet console Listening on 127.0.0.1:6023 


py :core.engine|] DEBUG: Crawled i G > (referer: None) 


„core.enginel DEBUG; Crawled í 

der] INFO: Parse function calle 
2019-91-79 73:71:24 [scrapy.core.engine] INFO: Closing spider (tinished) 
2019-01-29 23:21:24 [scrapy.statscollectors] INFO: Dumping Scrapy stats: 
{'downloader/request_bytes': 446, 

'downloader/request count'; 2 
'downloader/request_method_count/GET': 2, 
'downlaader/response_bytes': 2701, 

'download sponse_count': 2, 
'downloader/response_status_count/200 

'downloader/response_ status count/40 

tfinish_reason'; 'finishec 

'finish_time': datetime.datetime (2919, : r e | S 4, 2726890), 
'log count/DEBUG': 3, 

'log count/INFO': 8, 


图 8.1 记录 日 志 
默认 的 logger 使 用 的 是 爬虫 名 称 ， 也 可 以 自己 指定 名 称 : 


01 import logging 

02 import scrapy 

03 

04 logger - logging.getLogger('custom logger') 
05 

06 class MySpider(scrapy.Spider): 

07 

08 name — 'myspider' 

09 start urls = [' http://quotes.toscrape.com "| 
10 

11 def parse(self, response): 


12 logger.info('Parse function called on $s', response.url) 


输出 结果 如 图 8.2 所 示 。 
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+ 


N 


ore.engine] INFO: Spider opened 


N 


M 


oD DEBUG: Crawled (404) «GET 
DEBUG: Crawled (200) 


logger] INFO; Parse function called on 


N 


core.engine] LNFO: Closing spider (tin1ished) 


N 


41 
$1 
4: 
:24; 
PLE 
4; 
4; 
4:5 


0919-01-29 23: 


{'downloader /r 


scrapy.statscollectors] INFO: Dumping Scrapy stats: 


N 


' down Loader et count: 2, 
' downloader /request_method_count/GET': 2, 
'downloader /response_bytes': 2701, 
'downloader /response_count'; 2, 

' downloader /response_status cou 


' downloader /response_sta 


' finish time': datetime.datetime(2019, 1, 
'log count/DEBUG': 3, 


'log_count/INFO0O': B, 


'response received count': 2, 


图 8.2 指定 logger 名 称 


8.3 数据 收集 


tensions. Logstats] INFO: Crawled 6 pages (at 6 pages/min), scraped 0 items (a 


tensions.telnet] DEBUG: Telnet console listening on 127.0.0 


利用 Scrapy 提供 的 统计 数据 收集 功能 ， 以 key/value 方式 ， 可 以 方便 地 统计 一 些 特殊 信息 ， 包 
括 指定 数据 的 统计 ， 比 如 特定 的 关键 词 、404 页 面 等 。Scrapy 提供 的 这 种 收集 数据 机 制 叫 作 Stats 


Collection 。 


数据 收集 器 对 每 个 Spider 保持 一 个 状态 表 。 当 Spider 启动 时 ， 该 表 自 动 打开 ; 当 Spider 关闭 


通过 stats 属性 来 使 用 数据 收集 器 。 下 面 是 在 扩展 中 使 用 状态 的 例子 : 


01 class ExtensionThatAccessStats (object): 
02 


03 der X init {Self stats]: 

04 self.stats = stats 

05 

06 Qclassmethod 

07 def from crawler(cls, crawler): 
08 return cls(crawler.stats) 


stats 属性 有 以 下 属性 值 可 以 配置 。 
e 设置 数据 : 


stats.set value('hostname', socket.gethostname|()) 


o 增加 数据 值 : 


stats.inc value('pages crawled') 
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当 新 的 值 比 原来 的 值 大 时 设置 数据 : 


stats.max value (' max items scraped', value) 


当 新 的 值 比 原来 的 值 小 时 设置 数据 : 


stats.min value('min free memory percent', value) 


o 获取 数据 : 


22» stats.get value('pages crawled") 


8 


o 获取 所 有 数据 : 


stats.get stats() 
I pages crawled' r 1238, 'start time': datetime.datetime (2009, 7T, 14, 21, 41, 
2H, UITTI38)] 


【示例 8-1】 数 据 收集 使 用 ， 统 计 名 人 名 言 网 站 中 (http://quotes.toscrape.com/) 标签 为 love 
的 名 言 数 量 


(1) 创建 项 目 : 


>>>scrapy startproject tagcount 


(2) &uzEEÉn.: 


>>>cd tagcount 


>>>scrapy genspider tags quotes.toscrape.com 


G) 元 素 定位 分 析 与 示例 4-1 一 致 ， 只 需 添 加 数据 收集 代码 ， 疏 虫 文件 tags.py 代码 如 下 : 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
LE 
T2 
13 
14 
15 
16 
TT 
18 


i = ol ntt 

import scrapy 

from scrapy import Request 

from tagcount.items import TagcountItem 


class TagsSpider(scrapy.Spider): 
name = 'tags' 
allowed domains - ['quotes.toscrape.com'] 


start urls - ['http://quotes.toscrape.com/'] 


def parse(self, response): 
quotes = response.css('.quote') 
for quote in quotes: 


item = TagcountItem() 
# 提取 内 容 数据 
item['author'] = quote.css('.author::text ).extract first() 


item['content'] — quote.cs85( .LtexrL::Ltexb').extracE EsrSET 
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19 item['tag'] = quote.css('.tag::text').extract () 

20 if 'love' in item['tag']: 

21 + 如 果 "love" 在 获取 的 tag 内 容 中 ， 则 "love" 统 计数 量 +1 

22 self.crawler.stats.inc value('love') 

2.3 yield item 

24 

29 next page — response.css['.next > a:cattr(ihrerF] ).extract Eirat ll 
26 if next page is not None: 

21 yield Request(response.urljoin(next page), 


callback-self.parse) 
28 


HP, self.crawler.stats.inc value(love) 每 当 检 测 到 “love” 时 增加 “love” 标 签 的 数量 统计 值 。 
(4) 编写 items.py 文件 如 下 : 
01 import scrapy 


02 
03 class QuotesItem(scrapy.Item): 


04 # define the fields for your item here like: 
05 # name = scrapy.Field() 

06 author = scrapy.Field() 

07 content = scrapy.Field() 

08 tag = scrapy.Field() 

(65) ITER F, Sith A RULES 8.3 所 示 。 


Terminal: Loca 
2019-01-29 23:43:27 [scrapy.core.engine] INFO: Closing spider (finished) 


2019-01-29 23: [scrapy.statscollectors] INFO: Dumping Scrapy stats: 
{ 'down Loader /request_bytes': 2870, 
downloader/request count': 11, 
downloader/request method count/GET': 11, 
downloader/response bytes': 24812, 
downloader/response count': 11, 
downlaader /respoanse_status_count/200': 19， 
downloader/response status count/404': 1 
finish reason': 'finished', 
finish_time': datet1me datet1me(2019，1，29， 
item scraped count': 1600, 
Log count/DEBUG': 112, 


mono lTATOGOts 21 


request deptti ma z 
response_received_count': 11, 
scheduler /dequeued': 10, 

schedu ler /dequeued/memory': 10, 
scheduler /enqueued': 10, 

schedu ler /enqueued/memory': 10, 


start_time': datetime.datetime(2019, 1, 29, 


2019-01-29 23:43:27 [scrapy.core.engine] INFO: Spider closed 


图 8.3 stats 统计 数据 


Scrapy 内 置 可 用 的 数据 收集 器 除了 基本 的 StatsCollector 外 ， 还 有 基于 StatsCollector 的 其 他 数 
据 收集 器 ， 可 以 通过 STATS CLASS 设置 来 选择 。Scrapy 默认 使 用 的 是 MemoryStatsCollector， 它 
的 原型 如 下 : 
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class scrapy.statscollectors.MemoryStatsCollector 


这 是 一 个 非常 简单 的 数据 收集 器 。 其 在 Spider 运行 完毕 后 将 数据 保存 在 内 存 中 。 数 据 可 以 通 
过 spider stats 属性 访问 ， 该 属性 以 字典 类 型 保存 了 每 个 Spider 最 近 一 次 爬 取 的 状态 的 数据 。 


8.4 发 送 邮件 


虽然 Python 通过 smtplib 库 可 以 很 方便 地 发 送 E-Mail，Scrapy 仍然 提供 了 对 邮件 功能 的 实现 。 
该 功能 十 分 易 用 ， 同 时 由 于 采用 了 Twisted 非 阻塞 式 Cnon-blocking) IO， 其 避免 了 对 扑 虫 的 非 阻 
FE IO 的 影响 。 另 外 ，Scrapy 也 提供 了 简单 的 API 来 发 送 附 件 。 通 过 一 些 简 单 的 settings 设置 ， 
可 以 很 方便 地 发 送 邮 件 。 


8.4.1 简单 例子 


有 两 种 方法 可 以 创建 邮件 发 送 器 (Mail Sender) 。 可 以 通过 标准 构造 器 (Constructor) 创建 : 


from scrapy.mail import MailSender 
mailer - MailSender() 


或 者 通过 传递 一 个 Scrapy 设置 对 象 ， 通 过 settings 配置 创建 : 
mailer = MailSender.from settings (settings) 
再 使 用 send0 方 法 来 发 送 邮件 〈 不 包括 附件 ) : 


mailer.send(to-["someoneQexample.com"], subject-"Some subject", body-"Some 
body", cc-["another(example.com"]) 


8.4.2 NMailSender 类 


下 面 来 详细 介绍 MailSender 25. 
原型 : 


class scrapy.mail.MailSender(smtphost-None, mailfrom-None, smtpuser-None, 
smtppass-None, smtpport-None) 


参数 : 


e smtphost (str) : 发 送 E-Mail 的 SMTP 主 机 (host). wR 9k, 3515) MAIL HOST. 

e mailfrom(str): J£] T- £ iX E-Mail 的 地 址 (address X 填 入 From: ). 如 果 忽 略 ,就 使 用 MAIL FROM, 

e smtpuse: SMTP 有 用户。 如 果 忽略 ， 就 使 用 MAIL USER。 如 果 未 给 定 ， 将 不 会 进行 SMTP 
认证 ( Authentication )。 

e smtppass(str; SMTP 认证 的 密码 。 
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smtpport(int): SMTP 连接 的 端口 。 
smtptls: 强制 使 用 STARTTLS. 
smtpssl(boolean): 强制 使 用 SSL 连接 。 


方法 : 
(1) from settings(settings) 
使 用 Scrapy 设置 对 象 来 初始 化 对 象 。 其 中 ， 参 数 settings(scrapy.settings.Settings 类 ) 可 从 
settings.py 中 设置 的 值 获取 。 
(2) send(to, subject, body, cc=None, attachs=(), mimetype- text/plain") 
RIZ E-Mail 到 给 定 的 接收 者 。 其 参数 介绍 如 下 。 


8.4.3 


to (list): 字符 串 或 者 字符 串 列 表 ， 指 定 收 件 人 地 址 。 

subject (str): 邮件 主题 。 

cc (str or list): 抄 送 人 地 址 。 

body (str): 邮件 正文 。 

attachs (iterable): 可 和 迭代 的 元 组 , 形式 为 (attach name, mimetype, file object). 其 中 , attach name 
为 附件 的 文件 名 , mimetype 是 附件 的 MIME 类 型 , file object 是 包含 附件 内 容 的 可 读 的 文件 
x E. 

mimetype (str); E-Mail 的 MIME 类 型 


在 settings.py 中 对 Mail 进行 设置 


settings.py 中 的 设置 定义 了 MailSender 构造 器 的 默认 值 。 
e MAIL FROM: 默认 值 为 scrapy(ülocalhost, J£] PR% E-Mail 的 地 址 ( address ) ( 4L From: ). 


MAIL HOST: IAA localhost, Z iX E-Mail 的 SMTP 主机 (host). 

MAIL PORT: 默认 值 为 23， 发 用 邮件 的 SMTP 端口 。 

MAIL USER: 默认 值 为 None, SMTP 用 户 。 如 果 未 给 定 ， 将 不 会 进行 SMTP 认证 。 

MAIL PASS: 默认 值 为 None， 用 于 SMTP 认证 ， 与 MAIL USER 匹配 的 认证 密码 。 

MAIL TLS: 默认 值 为 False， 强 制 使 用 STARTTLS。STARTTLS 能 够 在 已 经 存在 的 不 安全 连 
接 的 基础 上 ， 通 过 使 用 SSL/TLS 来 实现 安全 连接 。 

MAIL SSL: 默认 值 为 False， 强 制 使 用 SSL 加 密 连 接 。 


8.5 ”实战 : 抓 取 猫 眼 电影 TOP100 榜 单 数据 


【示例 8-2】 抓 取 猫 眼 电 影 TOP100 榜 单数 据 


抓 取 的 数据 为 电影 名 称 、 主 演 、 上 映 日 期 、 评 分 。 将 抓 取 的 数据 保存 到 maoyantop100.json X: 
件 ， 并 将 文件 作为 附件 通过 邮件 发 送 给 接收 入 。 
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8.5.1 分 析 页 面 元 素 


分 析 页 面 元 素 ， 如 图 8.4 所 示 。 


E 
m divi C 


ADIOS A MI 
IQR A 


p 


Exi 


- 
LITT 


nim ses 
SONESADA AN PC sm mm PE dis 
CLOPS D OPO- b sape piini ef n. 


Elements Console Sources Network : emory Application Security Audits AdBlock 


rs 
«dl class= "board-wrapper > 
v«dd» == $8 
£i class-' board-index boand-inceg-1]^ 
-link^ data-act-"boanrditem-click" data. -"[movield:1203)^» 
ge/loading 2.e3d934bf.png" alt clas poster-default'» 
://pl.meituan.net/movie/20803f5..4 5g23160«. 220h 1e 1c"; 


Yv«div class-"board-item-main'"» 
vcdiv class-"board-item-conten 
"v«div class-" movie-item-infoff 
pip class-"name' »..«/p» 
p class-"star"» 
ER: kB, dE, Dui 
/p> 
«p class="releasetime"> 上 映 时 间 ; 1993-01-01. 
</div> 
¥<div class="movie-item-number score-n, 
vp class-"score"» 
«4i class-"integer"5»9.«/i» 
ci class-"fraction' 56«/i» 


84 页 面 结构 


可 以 看 到 , 每 一 个 电影 的 介绍 信息 包含 在 一 个 <dd> 标 签 中 , 电影 名 称 在 <a> 标 签 的 title 属性 中 ， 
主演 在 “class=star” 的 <p> 标 签 的 文本 中 ， 上 映 时 间 在 “class=releasetime ”的 <p> 标 签 的 文本 中 ， 
评分 可 以 分 别 在 “class=integer” 和 “class=fraction ”的 < 请 标签 中 提取 数据 组 合 ， 也 可 以 直接 在 

“class=score ”的 <p> 标 签 中 通过 正则 表达 式 提取 数据 。 


8.5.2 创建 项 目 


创建 项 目 命令 如 下 : 


>>>scrapy startproject maoyan 
New Scrapy project 'maoyan', using template ****** 


You can start your first spider with: 
cd maoyan 
scrapy genspider example example.com 
>>> scrapy genspider -t crawl topl00 maoyan.com 
Created spider 'topl00' using template 'crawl' in module: 
maoyan.spiders.topl00 
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8.5.3” 编 瑟 items.py 


分 析 数 据 提取 方法 之 后 ， 编 写 代 人 码 。 其 中 items.py 代码 如 下 : 


01 import scrapy 
02 


03 class MaoyanlItem(scrapy.Item): 


04 £ define the fields for your item here like: 
05 # 电影 名 称 

06 name — scrapy.Field() 

07 * 主演 

08 actors = scrapy.Field() 

09 * 上 映 时 间 

10 releasetime - scrapy.Field() 

11 # 评分 

12 Score = scrapy.Field() 


8.5.4 编写 管道 pipelines.py 


编写 管道 pipelines.py 文件 代码 : 
01 import json 
02 


03 class MaoyanPipeline (object): 


04 + Edu 8xftmaoyan.json 


05 def open spider [5selr, spider) : 

06 self.file = open('maoyantopl00.json', 'w') 
07 

08 # 有 扑 虫 关闭 时 关闭 文件 

09 def close midern(lseLi spider: 

10 self.file.close() 

11 

12 # 将 抓 取 数 据 写 入 JSON 文件 

T3 def process item(selt, item, spider): 

14 line = json.dumps (dict(item),ensure ascii-False) + "An" 
15 self.file.write(line) 

16 return item 


Jill es f f£ settings.py 中 启用 管道 ， 顺 便 将 ROBOTSTXT OBEY 值 设 定 为 False: 


# Obey robots.txt rules 


ROBOTSTXT OBEY = False 
大 大 大 


# Configure item pipelines 
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# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html 
ITEM PIPELINES = { 
'maoyan.pipelines.MaoyanPipeline': 300, 


8.5.5 ”编写 爬虫 文件 top100.py 


2j ERPF top100.py 代码 ， 注 意 数据 提取 : 


Di—$3 — coding: uLt B —-— 

02 import scrapy 

03 from scrapy.linkextractors import LinkExtractor 
04 from scrapy.mail import MailSender 

05 from scrapy.spiders import CrawlSpider, Rule 

06 from maoyan.items import MaoyanItem 


07 

08 class TopmoviesSpider (CrawlSpider): 

09 name = 'topl00' 

10 allowed domains - ['maoyan.com'] 

IT start urls = ['https://maoyan.com/board/4'] 

12 

13 * 跟 进 每 页 电影 目录 

14 rules - ( 

15 Rule(LinkExtractor(allow-r'offset'),callback-'parse item', 
follow-True), 

16 ) 

有 

18 def parse item(self, response): 

19 movies = response.css('dd') 

20 for movie in movies: 

21 item = MaoyanItem() 

22 itemi name'] = movie.css( accattr(Eit le) ")o.extract ErrsbE D 

23 item['actors'] =movie.css('.star::text') .re first (r' iB: (ENS) 

24 item['releasetime'] = movie.css('.releasetime'). 

re first(r' Et: (.*)«/p»') 

25 # 使 用 正则 获取 评分 的 组 成 部 分 ， 如 [9, . ,7] ， 其 中 “9”“7” 分 别 为 评分 的 整数 
与 小 数 部 分 ， 其 小 数 点 “. ”组合 之 后 9.7 添加 到 item 中 

26 Score — movie.css('.score').re(r'Md|wV.') 

21 item['score'] = ''.join(score) 

28 yield item 

29 

30 def closed(self,reason): 

31 # 使 用 settings 中 的 设置 初始 化 邮件 实例 

32 mail = MailSender.from settings (self.settings) 


33 # 将 需要 发 送 的 附件 数据 使 用 'rb ' 模式 打开 
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34 files - open('./maoyantopl00.json', 'rb') 

35 # 注意 attachment 是 一 个 迭代 器 ， 每 一 个 数据 包含 3 部 分 : 

36 # 工 -附件 的 文件 名 

37 * 2. 附 件 格式 

38 # 3. 需 要 发 送 的 附件 

39 attachment = [('maoyan top 100 movies.json','application/json', 

files)] 

40 # 发 送 邮 件 ，to 指定 接收 人 列表 ，subject 为 邮件 主题 ，body 为 邮件 正文 ， 
attachs 为 附件 ，mimetype 为 邮件 正文 类 型 

4] mail.send( 

42 to-['***********(qq.com'], 

43 subject-u'maoyan movie', 

44 body-u'this is a test', 

45 attachs-attachment, 

46 mimetype-'text/plain', 

47 ) 

48 files.close() 

f£ settings.py 中 进行 邮件 发 送 配置 : 

# 发 送 邮 件 设置 

# 指定 邮件 发 送 方 

MAIL FROM = 'learnscrapy8163.com' 

# 邮件 发 送 服务 器 

MAIL HOST - 'smtp.163.com' 

# 发 送 人 


MAIL USER = 'learnscrapy' 
# 注意 ， 这 是 163 邮箱 授权 码 ， 不 是 邮箱 密码 ， 不 同 邮 件 获 取 授权 码 方式 不 一 样 
MAIL PASS = c€-XKXXX*XkXXk' 


数据 提取 依据 8.5.1 小 节 页 面 元 素 的 分 析 即 可 正确 提取 ， 在 邮件 发 送 部 分 ， 我 们 在 closed() 方 
法 中 添加 邮件 发 送 代码 ， 这 部 分 代码 会 在 爬虫 运行 结束 时 执行 。 

在 实例 化 时 ，MailSender 的 类 方法 from setting(settings) 通 过 self.settings 获取 在 settings.py 中 
的 邮件 设置 。 


EE 在 指定 附件 时 ， 要 以 'tb' 模 式 打 开 文 件 。 


运行 结果 如 图 8.5 所 示 。 
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maoyan movie 


learnscrapy <learnscrapy@163.com 
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Sos 
模拟 登录 


在 实际 的 爬虫 作业 中 ， 由 于 一 些 网 站 的 授权 机 制 ， 某 些 内 容 只 能 登录 后 查看 ， 或 对 非 登 录 限 
制 访问 ， 因 此 模拟 登录 在 爬虫 中 经 常用 到 。 在 使 用 Scrapy 处 理 这 种 情况 时 ， 我 们 既 可 以 使 用 表单 
进行 模拟 登录 ， 又 可 以 直接 使 用 Cookie 进行 验证 ， 本 章 将 对 这 两 种 方法 进行 介绍 。 

本 章 主 要 的 知识 点 有 : 

o 表单 模拟 登录 

e Cookie 登录 


9.1 模拟 提交 表单 


在 Scrapy 中 ， 模 拟 提 交 表 单 震 要 用 到 Request 的 FormRequest 子 类 ， 与 Request 相 比 ， 
FormRequest 多 了 一 个 formdata 参数 ， 此 项 参数 为 要 填充 的 HTML 表单 ， 是 一 个 字典 类 型 数据 ， 
或 者 可 迭 代 的 (key.value) 型 元 组 数据 。 

【示例 9-1] FormRequest 简单 使 用 方法 


01 import scrapy 


02 

03 from myprojct.items import ExampleItem 
04 

05 

06 class ExampleSpider (scrapy.Spider): 

07 name = 'example' 

08 allowed domains - ["example.com"] 
09 

10 start urls - [ 


11 'http://www.example.com', 
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12 ] 

tS 

14 # 先 登 录 

15 def start requesrs (self): 

16 return [scrapy.FormRequest (人 

17 "http: //www.example.com/login", 

18 # 传递 表单 数据 

19 formdata-['user': 'john', 'pass': 'secret'], 

20 # 回调 函数 

2 callback-self.login check)] 

22 

23 # 检查 是 否 登 录 成 功 

24 def login check(self, response): 

25 

26 + 如 果 登 录 成 功 ， 则 从 start url ÆR Request. HA parse page 进行 解析 
ZI if "Login failed" not in response.body: 

28 Tor HrFl iñ Sett.start urls: 

29 yield scrapy.Request(url, callback-self.parse page) 
30 

31 # 解析 页 面 

32 def parse page(self, response): 

23 item = ExampleItem() 

34 item["name"] = response.css(".name").extract first () 
35 


某 些 网 站 的 登录 页 面 中 会 有 一 些 含有 默认 值 的 隐藏 的 表单 字段 包含 在 <.input type-"hidden"- 
元 素 中 ， 如 会 话 数据 、 认 证 信息 等 。 我 们 在 抓 取 数据 时 ， 并 不 需要 了 解 这 些 默认 数据 的 生成 方法 ， 
只 需 关 注 需 要 手动 录入 数据 的 字段 ， 如 用 户 名 、 密 码 等 。 这 时 可 以 使 用 from response() 方 法 。 

from response0 方 法 原型 : 

classmethod from response(response[, formname-None, formid-None, 


formnumber-0, formdata-None, formxpath-None, formcss-None, clickdata-None, 
dont click-False, ...]) 


参数 说 明 : 

response: 包含 待 填充 数据 的 HTML 表单 。 

formname: 如 果 指 定 了 formname 值 ， 那 么 将 使 用 name 属性 为 此 值 的 表单 。 

formid: 如 果 指 定 了 formid 值 ， 那 么 将 使 用 id 属性 为 此 值 的 表单 。 

formnumer: 如 果 指 定 了 formnumber 值 ， 那么 将 使 用 序号 为 此 值 的 表单 ， 第 一 个 表单 序号 为 0。 
formxpath: 如 果 指 定 了 formxpath， 就 使 用 该 XPath 表达 式 匹 配 的 第 一 个 form 表单 。 
formess: 如 果 指 定 了 formcss， 就 使 用 该 CSS 表达 式 匹 配 的 第 一 个 form 表单 。 
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e formdata: 表单 填充 数据 ， 如 果菜 个 字段 在 Response 中 已 经 存在 值 ， 那 么 将 会 被 覆盖 ; 如 果 
某 个 字段 传递 的 是 None， 那 么 该 字段 不 会 包含 在 生成 的 Request 中 。 

e clickdata: 指定 表单 中 的 单 击 事件 ， 如 果 没 有 指定 ， 就 会 通过 模拟 单 击 表单 中 第 一 个 可 单 击 
元 素 进行 表单 数据 提交 。 

e dont click: 如 果 指 定 为 True， 该 表单 就 不 会 通过 单 击 任何 元 素来 操作 而 直接 提交 。 


from responseO0 是 通过 模拟 上 自动 单 击 表单 中 的 可 单 击 元 素 (如 <input type="submit"> ) 来 进行 表 
单数 据 提交 的 ， 生 成 一 个 Request。 虽 然 很 方便 ， 但 仍 存 在 一 些 问题 ， 例 如 ， 如 果 表 单数 据 是 通过 
JavaScript 来 进行 交互 操作 的 ， 那 么 from responseO 的 默认 提交 操作 就 不 合适 了 。 这 时 就 可 以 设置 
don't click=True 来 禁用 自动 单 击 提交 功能 。 


【示例 9-2] from response0 人 简单 示例 


01 import scrapy 
02 
03 class LoginSpider (scrapy.Spider): 


04 name — 'example.com' 

05 start urls = ['http://www.example.com/users/login.php'] 
06 

07 def parse(self, response): 

08 return scrapy.FormRequest.from response( 

09 response, 

10 # 传递 表单 数据 

XT formdata-[('username': 'john', 'password': 'secret'], 
12 # 回调 函数 

13 callback-self.after login 

14 ) 

T5 

16 def after login (self, response): 

17 # 检查 是 否 登录 成 功 

18 if "authentication failed" in response.body: 

19 self.logger.error("Login failed") 

20 return 

21 # 执行 登录 通过 后 的 操作 

22 

【代码 解析 】 


from responseO 接 收 的 Response 来 自 start request0 方 法 从 start url 列表 中 加 载 的 URL 生成 的 
Response， 这 个 Response 中 包含 登录 页 面 默 认 填 充 的 隐藏 表单 的 数据 ， 因 此 在 formdata 参数 中 只 
需 填 充 登 录 使 用 的 数据 即 可 ， 最 后 调用 after login0 进 行 登 录 后 续 处 理 。 
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9.2 用 Cookie 模拟 登录 状态 


在 第 2 章 介绍 requests 库 的 时 候 讲 到 过 Cookie, Cookie 中 包含 用 户 的 登录 信息 等 数据 。 同 样 
的 ， 在 Scrapy 的 FormRequest 中 ， 也 可 以 使 用 Cookie 直接 登录 ， 进 行 后 续 数 据 的 抓 取 工作 。 

使 用 Cookie 实现 登录 其 实 就 是 把 已 登录 的 信息 〈 用 户 名 、 密 码 及 其 他 验证 信息 ) 一 起 发 给 服 
务 器 做 验证 。 优 点 是 不 需要 知道 登录 URL 和 表单 字段 ， 也 不 需要 了 解 登录 过 程 和 其 他 细节 ， 即 可 
实现 必须 登录 后 查看 的 目标 网 页 的 数据 采集 。 不 足 之 处 是 Cookie 有 有 效 期 限制 ， 有 效 期 过 后 ， 需 
要 重新 获取 Cookie 的 值 。 


【示例 9-3】 使 用 Cookie 登录 简单 示例 


01 import scrapy 


02 

03 from myprojct.items import Exampleltem 

04 

05 

06 class ExampleSpider (scrapy.Spider): 

07 name = 'example' 

08 allowed domains - ["example.com"] 

09 

10 start urls - [ 

11 'http://www.example.com', 

12 ] 

T3 

14 # 先 登 录 

15 der sEgrt rFequesiEs[Sselri- 

16 # Cookies 数据 

17 cookies = ('uid': '"1083428ut7838"', 'v': '30'] 

18 # 头 信息 

19 headers = { 

20 'Connection': 'keep-alive', 

Zl 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) 
AppleWebKit/537.36 22 (KHTML, like Gecko) 
Chrome/72.0.3626.121 Safari/537.36' 

23 } 

24 

25 return [scrapy.FormRequest ("http://www.example.com/articles", 

26 # 使 用 Cookies 

zy cookies-cookies, 

28 # 指定 头 信 息 

29 headers-headers, 


30 # 指定 回调 函数 
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zal callback-self.parse page) ] 

32 

33 

34 # 解析 页 面 

5 def parse page(self, response): 

36 item = ExampleItem() 

37 item["name"] = response.css(".name").extract first () 
38 yield item 

39 


在 start requests "FH, FormRequest 直接 传 入 了 cookies 进行 登录 ， 添 加 了 头 信息 ， 然 后 调用 回 
调 函 数 处 理 数据 。 


9.3 项目 实战 


下 面 通过 两 个 实例 来 进一步 讲解 表单 登录 与 Cookie 登录 的 方法 ,这 两 种 方法 读者 都 应 该 掌握 ， 
并 能 根据 实际 情况 灵活 运用 。 


9.3.1 实战 1: 使 用 FormRequest 模拟 登录 豆 准 


【示例 9-4】 使 用 FormRequest 模拟 登录 豆 辩 
(1) 确定 登录 接口 
打开 豆瓣 ， 进 入 登录 页 面 ， 在 登录 面板 选择 密码 登录 ， 打 开 浏 览 器 开发 者 工具 ， 以 FireFox M 
览 器 为 例 ， 切 换 到 网 络 标签 页 ， 选 择 筛 选 KHR 请 求 ， 同 时 多 选 “持续 日 志 ” 复 选 枉 ， 以 便 在 加 载 
页 面 时 保留 请 求 记录 ， 如 图 9.1 所 示 。 
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91 有 豆 辩 登录 页 面 分 析 
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输入 用 户 名 和 密码 进行 登录 ， 查 看 请 求 记录 ， 如 图 9.2 所 示 。 
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Usi: 154,8.131,172:443 
te: EDo 0 SRE pex 
版 本 : HTTP/1.1 


tuse 


RTE (719 F7) 


Access-Control-Allow-Origin. ^ 

Cache-Control: must-revalidate, no-cache, private 
Connectiorr keep-alive 

Content-Encading- gnp 

Content-Type: spplicsbor/json; charset=utf-8 
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图 9.2 ”豆瓣 登录 接口 分 析 


可 以 看 到 请 求 文件 为 basic 对 应 的 请 求 网 址 https://accounts.douban.comy/j/mobile/login/basic 就 是 
登录 的 接口 ,并 且 消 息 头 标签 数据 中 有 啊 应 头 与 请 求 头 信息 ， 切 换 到 参数 标签 页 ， 可 以 看 到 接口 的 
请 求 参 数 如 图 9.3 所 示 。 
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图 9.3 ”登录 参数 分 析 
啊 应 标签 页 则 为 接口 的 响应 信息 ， 登 录 成 功 啊 应 信息 如 图 9.4 所 示 。 
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9.4 登录 成 功 啊 应 信息 


登录 失败 啊 应 信息 如 图 9.$ 所 示 。 
有 这 些 信息 之 后 ， 我 们 就 可 以 使 用 Scrapy 的 FormRequest 来 模拟 提交 表单 进行 登录 操作 。 
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payload f 
-AES (payload) 
("status":"falled","nmezsage":"urmatch name password", "description": B^ EX ES ^," payload": (0 


9.5 ”登录 失败 响应 信息 
(2) 爬虫 代码 编写 
创建 项 目 : 
>>>scrapy startproject douban 
GJ EE m 


>>>cd douban 
»»»scrapy genspider login douban.com 


Tar GI SEE dmm ZH, TE^EBIE n X fF login.py 中 编写 如 下 代码 : 


0l $ —— coding: utií-8 —*- 
02 import scrapy 
03 from scrapy.http import FormRequest 


04 

05 

06 class LoginSpider (scrapy.Spider): 

07 name — 'login' 

08 allowed domains - ['douban.com'] 

09 start urls = ['https://www.douban.com/'] 

10 

1l # 请 求 头 信息 ， 豆 辩 会 禁止 Scrapy 默认 的 头 信 息 

I headers = { 

13 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) 

AppleWebKit/537.36 ' 
14 ' (KHTML, like Gecko) Chrome/71.0.3578.98 
Sutarif53I.35", 

15 'Content-Type': 'application/x-www-form-urlencoded', 

16 'X-Requested-With': 'XMLHttpRequest' 

zy } 

18 

19 # 使 用 FormRequest 发 送 请 求 ， 指 定 URL、 请 求 头 信息 、 请 求 参数 、 回 调 函 数 

20 def start requests (self): 

24 return [FormRequest (url-'https://accounts.douban. com/j/mobile/ 
login/basic', 

22 headers=self.headers, 

23 # 表单 数据 

24 formdata-('name': '*******kxk', 


es 'password': '******x**', 


26 
zd 
28 
29 
30 
3l 
32 
33 
34 
35 
36 
T 
38 
39 
40 


41 
42 
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'remember': 'false'], 
# 回调 函数 
callback-self.login check)] 


# 检查 登录 状态 ， 登 录 成 功 后 回调 爬虫 处 理 函 数 
def login check(self, response): 
if "success" in response.body.decode('utf-8'): 
for url in self.start urls: 
yield scrapy.Request (url-url, 
headers-self.headers, 
callback-self.parse) 


* Ed AETHER 
def parse(self, response): 
user check — response.css('.nav-user-account » d » span::Ltext'). 
extract first() 
self.loggqer.info('{l 已 经 登录 成 功 ' .format (user check) 


同时 ， 在 settings.py 文件 中 将 ROBOTSTXT OBEY 设置 为 False。 


# Obey robots.txt rules 
ROBOTSTXT OBEY - False 


【代码 分 析 】 


在 login.py 文件 中 ， 我 们 添加 了 浏览 器 头 信 息 ， 包 含 User-Agent 用 户 系 统 信 息 、Content-Type 
资源 类 型 、X-Request-With 请 求 类 型 ， 蔡 换 这 些 默 认 的 头 信息 之 后 ， 服 务 器 可 以 接收 请 求 信息 ， 豆 
瓣 服务 器 依据 这 些 信息 来 判断 是 不 是 正常 用 户 请 求 。 

重 写 start_request()， 这 里 使 用 FormRequest 请 求 登录 网 址 ， 传 入 字典 类 型 请 求 参 数 formdata、 
headers 潜 信 息 ， 指 定 后 续 处 理 函 数 login check， 用 来 检查 是 否 登 录 成 功 。 

在 login_check0 中 ， 我 们 在 确定 登录 接口 时 ， 知 道 了 返回 的 信息 ， 因 此 我 们 可 以 用 登录 失败 时 
啊 应 数据 中 的 “failed” 关 键 字 来 确定 接口 是 否 返回 了 登录 失败 的 信息 。 如 果 登 录 成 功 ， 就 请 求 
start url 列表 中 的 url， 调 用 parse0 进 行 后 续 处 理 。 

豆瓣 登录 成 功 后 ， 会 返回 首页 。 在 parse0 中 ， 我 们 在 首页 中 提取 出 用 户 名 ， 如 图 9.6 所 示 。 


maa douban.com 会 "oz 


uban am meom azm ses” 


v «li classas"nav-user-account"» 
”< Class-^h^.more" target="_blank” hrefe"h 


图 9.6 登录 后 用 户 名 提取 


2 MV 


- 


登录 失败 结果 如 图 9.7 所 示 。 


图 9.7 登录 失败 结果 
登录 成 功 结果 如 图 9.8 所 示 。 


A 


图 9.8 登录 成 功 结果 


9.3.2 ”实战 2: 使 用 Cookie 登录 


回 到 登录 接口 的 分 析 中 ， 在 登录 成 功 后 ， 我 们 随便 打开 一 个 其 他 的 页 面 ， 如 豆瓣 读书 ， 查 看 
Cookie 中 记录 的 请 求 Cookie 信息 ， 如 图 9.9 所 示 。 


© g & https;//book.douban.com 


awm Sx ”购书 单 电子 图 书 FEBE — 20105 EU 2010B5 六 购物 车 (D) 


DESSEIN GHE QAF — MA BUS T IERA 
||. 所 有 HTML CSS s XHR 字体 图 像 媒体 ws Eb Mess [IER 
iso isop ^je 383 Cooke $8 (em HE HERE Set 
zti$ Cookie 


@ www.douban.... " FR Cookie 
. yadk usd: HmWVA4mx9'WByUjirk4foBBIN2DdNS241Dr 
@ push douban BE 
pk id.100001.3ac3- 8Bb6cd35besB16dlD8 1549756347 1.1549756347.1549756347. 


z @ imaoidoubam js | pk ref. 100001.3ac3: 1"","" 1549756347," httosy/wwwdouban com/people/sugermaster/"] 
mg3 doubsm js | _Pk_ses 100001 39c3- * 
Vwo uuid v2: D64CD4759E88751D295BF6BB8COA17D4909bc14c89aC7c1135c3193699bc62836 
ap v 060 
imqQ3.douban.. js bid. XzvoddcgwilcU 
n - ck CaWb 


wg} douban:. . js 


dbc2: *1998161 54jcasvSLk1LY* 
douban-profile-remind: 1 
Qr cz1 eBSebdsb-Abof-4deS-Bd39-Sesd138O05Bdc: user id1 
gr session id 22c337bbdBebd703f2d8e5445f7 dfdo3: eBSebd5b-4b0f-ad59-8d39-3e3d138068q 
gr session id 22c9370bdBebd70312d8e9445f7dfdO5 e&5ebdSb-4b0f-4d69-8439-9e9d138068d 
9r user xd: Ta61a893-323b-45ca-9218-5029810b3568 
imo3.douban... css Hm lpvt 6e5dcf7 :287704f738c7febc2283cf0x. 1549756365 
img3.doubani. css Hm ivt Ge5dcf?c2877046738c7febc2283cfüc 1549756365 
ll dn-growingq is n 


push doumail num: 0 
lh devvisualweb.. j 
là book douban 
là wmg3 doubam 


n 


«93. doubam € 


DPPbPEPPDPDPPE 


push naty num: D 


图 9.9 Cookie 分析 


新 建 一 个 爬虫 文件 loginwithcookie.py， 在 loginwithcookie.py 中 保存 Cookie 人 信息， 修改 
start requestO0， 不 使 用 formatdata 参数 ， 而 改 为 使 用 cookies 参数 发 送 请 求 ， 代 码 如 下 : 


01 
02 
03 
04 
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2515 ccoud3mng- (Ei —— 
import scrapy 
from scrapy import FormRequest 


05 class LoginwithcookieSpider (scrapy.Spider): 


06 
07 
08 
09 
10 
TI 
T2 


13 


14 
15 


16 
ES 
18 
[ES] 
20 
21 
ES 


23 
24 
25 


26 
AP 
28 
29 
30 
E! 
32 
33 
34 
935 
36 


37] 
38 


name — 'loginwithcookie' 
allowed domains - ['douban.com'] 
start urls = ['http://douban.com/'] 


cookies = f 

"  yadk uid': 'HmV4mx9W8yUjirk4fo8BjN2DdNS241Dr', 

"pk Lid TUDUUT. Jaci : 
'8b6cd35be816d108.1549756347.1.1549756347.1549756347.', 

pk eel a - a TL ESSS T9635 5 
"https: //www.douban.com/people/sugermaster/"]', 

'" pk ses.100001.3ac3': '*', 

' vwo uuid v2': 'D64CD4759E8B751D295BF6BB8C0A17D49| 

9bc14c89ac7clfa5caf93699bc6283e7', 

"HD wc Uo 

Didi: '"XzwxkRpWicU', 

"ck t*CaWND", 

"dhci27': '"T90816154-:]casySLELIEY" ", 

'douban-profile-remind': '1', 

"gr csi eB85ebd5b-A4DOÜF-4d69-B8di9-9e9di138068dc -; "user ds 

'gr session id 22c937bbd8ebd703f24d8e9445f7dfqd03': 

'e85ebd5b-4b0f-4d69-8d39-9e9d138068dc', 


“gr session id 22c937bbd8ebqd703f24d8e9445f7dfd03 e85ebd5b-4b0f-4d69- 
84d439-9e9d1380 bHrdcl- "Erue". 


'gr user id': '7a61a89a-323b-45ca-9218-5029810ba568', 

"um Ipvt 6e5dcftIC2BIJOAETI3BCITebc22B83cfUC': *"I549756365", 
"Hm Ivt 6e5dcf/c287704£738c7febc2283cfüc': '1549756365', 
E22 

'push doumail num': "05, 

'push poty num': 'O' 


headers = { 
'Accept': 'text/html,application/xhtml+xm..plication/xml;q=0.9, 
*/*;q=0.8", 
'Accept-Encoding': 'gzip, deflate, br 
'Accept-Language': 'zh-CN,zh;q-0.8,zh-TW;q-0.7,zh-HK;q-0.5, 
en-US;q-0.3,en;q-0.2', 
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39 

40 'Connection': 'keep-alive', 

41 "DNE, «055 

42 'Host': 'book.douban.com', 

43 'Referer': 'https://www.douban.com/people/sugermaster/', 

44 'Upgrade-Insecure-Requests': '1', 

45 "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv': '64.0) 
Gecko/20100101 Firefox/64.0" 

46 

47 } 

48 

49 4 使 用 FormRequest 发 送 请 求 ， 指 定 url, WRAAE, cookies 

50 def start requests (self): 

51 tor url 3B SeOITI.starb "uris: 

52 return [FormRequest (url, 

53 headers=self.headers, 

54 # formdata={'name': '1120844583@qq.com', 

55 = 'password': 'guoqingl010', 

56 d 'remember': 'false'], 

ur cookies-self.cookies, 

58 callback-self.parse)] 

59 

60 + MERAL R% 

61 def parse (self, response): 

62 user check = response.css( 

63 'Jnaw-user-account > a8 > span:.text ).extract rirstt] 

64 self.logger.info('() 已 经 登录 成 功 ' . format (user check)) 


isírém, fU& HE, mB 9.10 Pr. 


crapy.core.engine] INFO: Spider opened 


nsions,Logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items ( 


ng spider (fir 
s] INFO: Dumping Scrapy stats: 


9.10 使 用 Cookie 登录 成 功 结果 


Scrapy IE rb fttt 


通过 前 面 章 节 介 绍 的 Serapy 使 用 方法 ， 我 们 已 经 可 以 进行 大 部 分 网 站 的 爬 取 工作 。 但 我 们 仍 
然 需要 思考 一 些 问 题 : 怎样 使 肘 虫 达到 最 优 的 下 载 速度 ? 如 何 避 免 被 目标 网 站 加 入 黑 名 单 、 被 禁止 
访问 ? 如何 避免 午 复 抓 取 。 因 此 , 在 扑 虫 可 以 正常 工作 后 ， 下 一 步 需要 进行 的 工作 就 是 进行 仆 虫 项 
目的 优化 。 

本 章 主 要 的 知识 点 有 : 


e Scrapy 性 能 评估 
e  Scrapy 性 能 优化 


10.1 Scrapy+MongoDB 实战 : 
抓 取 并 保存 IT 之 家 博客 新 闻 


下 面 我 们 将 通过 一 个 候 取 示例 来 演示 如 何 一 步 一 步 优化 人 息 虫 。 
【示例 10-1】 使 用 Scrapy*MongoDB 抓 取 并 保存 I 芽 之 家 (www.ithome.com) 博客 新 闻 


10.1.1 确定 目标 


在 工 之 家 站 页 打开 一 篇 新 闻 ， 我 们 坝 要 抓 取 的 数据 有 本 章 标 题 、 文 章 地 址 、 友 布 日 期 、 来 源 、 
原文 章 地 址 、 作 者 、 文 章 标签 ， 如 图 10.1 Wr. 
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INN: SEARS EJEN EAK O 


北京 时 间 2 月 26 日 晚间 消息 ， 全 球 第 五 大 智能 手机 厂商 小 米 公司 今 日 向 CNBC 表 示 ， 到 今年 年 底 ， 小 米 
在 西欧 的 零售 店 数量 将 增长 2 倍 。 


2017 年 ， 小 米 在 西班牙 开设 了 其 在 欧洲 的 首 家 零售 店 。 今 日 ， 小 米 集团 高 级 副 总 裁 王 翔 在 世界 移动 通信 
大 会 (MWCO) 上 接受 CNBC 采 访 时 称 ， 到 2017 年 底 ， 希 户 小 米 在 西欧 的 零售 店 数量 能 超过 150 家 。 


而 截至 2018 年 底 ， 小 米 在 西欧 的 零售 店 数量 不 到 50 家 。 王 翔 阅 : “这 对 我 们 来 说 是 一 个 大 目标 。"” 


与 此 同时 ， 中 国 另 一 家 手机 厂商 OPPO 本 月 早 些 时 候 曾 表示 ， 将 进军 英国 等 三 个 欧洲 新 市 场 。 


市 场 研 究 公司 IDC 数 据 显 示 ， 去 年 第 四 季度 OPPO 超 越 小 米 ， 成 为 全 球 第 四 大 智能 机 厂商 。 而 前 三 大 厂 
商 分 别 为 三 星 电 子 、 苹 果 公 司 和 华为 。 


文章 价值 打分 人 数 少 于 5 人 ， 芹 不 显示 得 分 一 还 可 以 
0 0 1 
AN 
- 000G 


相关 文章 


10.1 开 之 家 博客 新 闻 


10.1.2 创建 项 目 


先 创建 项 目 : 


>>>scrapy startproject ithome 
New Scrapy project 'ithome!.. 


创建 爬虫 : 


>>>cd ithome 
>>>scrapy genspider -t crawl news ithome.com 
Created spider 'news' using template 'crawl' in module: 


ithome.spiders.news 
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10.1.3 5 items.py 文件 


人 


02 

03 4 Define here the models for your scraped items 
04 * 

05 4 See documentation in: 

06 # https://doc.scrapy.org/en/latest/topics/items.html 
07 

08 import scrapy 

09 

10 

11 class IthomeItem(scrapy.Item): 

12 # define the fields for your item here like: 
13 

14 # 文章 标题 

15 title = scrapy.Field() 

16 # 文章 URL 

Ty url = scrapy.Field() 

18 # 来 源 

19 source = scrapy.Field() 

20 # 来 源 URL 

zl source url - scrapy.Field() 

22 * 发 布 日 期 

23 release date - scrapy.Field() 

24 # 作者 

29 author = scrapy.Field() 

26 # 关键 词 

2] key words - scrapy.Field() 


定义 了 需要 抓 取 的 内 容 : 文章 标题 、 文 章 URL、 来 源 、 来 源 URL、 发 布 日 期 、 作 者 、 关 键 词 。 


10.1.4 42m *5/Emxft news.py 


这 里 我 们 使 用 Crawl AREJEE, KERAF He t ERI FECE S CL EI JT PR] BEBE, 利用 rule 
参数 可 以 方便 地 跟踪 新 闻 页 面 ， 抓 取 数据 。 

待 抓 取 元 素 的 定位 不 再 详细 介绍 。 这 里 推荐 一 个 插件 ChroPath，FireFox 与 Chrome 都 可 以 安 
装 ， 可 以 显示 元 素 的 绝对 与 相对 XPath, CSS 选择 器 ， 如 图 10.2 所 示 。 


208 | Scrapy WAMWERE 


微软 CEO 纳 德 拉 jt El ize goose ERI 
2220212050 Hi 5m—2m8) HERSE 


EH SRE: ReERSDET 210294. 


Elements Console Sources Performance Memory Applicaton Secunty Audits 02422 


iv id- wrapper ^| Styles Computed EventListeners DOM Breakpoints Properties Accessibility — ChroPath 


div cless-"content fl 
b <div clasz-"current nav"5..«/div 
v«div class-"post title" 
hi> 祝 的 CE0 钢 御 拉 MWC; 湛 讲 ; ERA AFANA 
vaspan claszz-"pt info prel' D) A RebXPath — //span[Gid - pubtime baidu] 
— —— NNIESSE. AXE EUN span (] A AbsXPsth — /htmi[I]/bodyLT/divIB/div[T]/div[T/div[2/ spon[/spon[Tl 
urce aidu 
D Css sd.. fpubtime baidu 
cn/2019-02- [daoc-ihsxncv 479.5 d target- 
stylo SER E co > «span idz"pubtime baidu* xpathz*1* » </span> 


图 10.2 ChroPath 插件 
new.py 代码 如 下 : 


Ul $ =*= coding: BLI-8 —*- 

02 import scrapy 

03 from scrapy.linkextractors import LinkExtractor 
04 from scrapy.spiders import CrawlSpider, Rule 

05 from ithome.items import IthomeItem 


06 import datetime 


07 

08 

09 class NewsSpider (CrawlSpider): 

10 name = 'news' 

i lal allowed domains = ['ithome.com'] 

17 start urls = ['https://www.ithome.com/0/411/151.htm'] 

13 

14 rules - ( 

15 # 文章 URL JÉN https://www.ithome.com/0/411/369.htm 

16 # 根据 后 三 段 数字 来 提取 所 有 的 文章 url 并 跟 进 处 理 数据 

iJ Rule (LinkExtractor (allow-r'/Nd/Nd(3) /Nd(3) ! ), 

callback-'parse item', follow-True), 

18 ) 

19 

20 der parse PLeEm[Setr, FECSBORSO)- 

21 item = IthomeItem() 

22 # 文章 URL 

23 item['url'] = response.url 

24 # 文章 标题 

25 item[|'title"' | = response.css( -POSE title > hl::text"). 
extract first () 

26 # 文章 作者 

21 item['author'] = response.css('£author baidu strong::text'). 
extract First (0) 

28 # 文章 来 源 

29 IESmI SoOurce I — response.css( 45source Doldu > as text j: 


extracb First [) 
30 # 文章 来 源 URL 


3l 


EE 
33 


34 
35 


36 
37 
38 
39 
40 
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item['source url']- response.css('4source baidus» a::attr(href)"). 


extract first() 


# 发 布 日 期 

iteml release date'] = response.css('fpubtime Daidn::text '). 
extract first() 

# 关键 词 

liteml Fey words] — response.css( .hot bags » span a::text ]. 


extract ( ) 


return item 


def close(spider, reason): 


self.crawler.stats.set value('finish time',datetime.datetime.now()) 


文章 的 URL 从 Response 的 url 属性 中 提取 即 可 。 一 个 好 的 习惯 是 ， 我 们 在 做 元 素 提 取 时 ， 始 
终 在 Scrapy Shell 中 运行 检测 后 再 写 入 代码 中 ， 确 保 不 会 因为 元 素 提取 问题 引出 异常 。 代 码 中 重 写 
了 close(0) 方 法 ， 在 爬虫 关闭 时 记录 关闭 时 间 ， 写 入 数据 统计 参数 finish time t. 


10.1.5 


编 瑟 管道 pipelines.py 


在 管道 中 如 前 面 的 例子 一 样 ， 将 数据 保存 在 MongoDB 中 ，pipelines.py 代码 如 下 : 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
11 
12 
23 
14 
15 
16 
17 
18 
19 
20 
2i 
22 
23 


1 = aene E= = 


Define your item pipelines here 


Don't forget to add your pipeline to the ITEM PIPELINES setting 
See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html 


*# cHs 间 cH 


from pymongo import MongoClient 
from scrapy.exceptions import DropItem 


import datetime 


class IthomePipeline (object): 
# 定义 集合 ithome news 
collection - 'ithome news' 


def init  (self,mongo uri,mongo db,stats): 
self.mongo uri - mongo uri 
self.mongo db - mongo db 
self.stats = stats 


Qclassmethod 
def from crawler (cls,crawler): 
return cls( 


# 从 settings .py 中 获取 MONGODB 数据 库 连 接 信息 ， 数 据 统 计 参 数 


210 | 


24 
23 
26 
21 
28 
29 
30 
3l 
32 
33 
34 
33 
36 
3l 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
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mongo uri-crawler.settings.get('MONGO URI'), 
mongo db-crawler.settings.get('MONGO DB'), 
stats-crawler.stats, 


E ERAZI i7 S PE 

det open sprderiselr, spider) : 
self.client - MongoClient (self.mongo uri) 
self.db = self.client[self.mongo db] 
# 开启 爬虫 时 将 结束 时 间 写 入 数据 集 参数 start 中 


self.stats.set value('start', datetime.datetime.now()) 


# 爬虫 关闭 时 关闭 数据 库 连 接 
def close spider (selt,spider): 
self.client.close() 


det process 1ibemiselt, item, spider): 
# 如 果 抓 取得 item F&F title, MAERAH, RF. BWER 
if not item['title']: 
raise DropItem(" 数 据 不 完整 ， 技 弃 : ()".format (item)) 
else: 
selLr.dbIseirt.cotlectron].1nsert once {dict (1Eem)}) 
return item 


REEERE RRI Y VERS A X start, HIT ico m BER EIR]S SATIUS 
数 中 有 start_time， 只 不 过 此 参数 记录 的 开始 时 间 是 第 一 个 url 下 载 以 后 开始 处 理 数 据 的 时 间 。 


10.1.6 


编写 settings.py 


在 settings.py 文件 中 ， 我 们 添加 MongoDB 数据 库 的 连接 信息 、 用 Pipeline， 男 外 ， 还 需要 设 
定 一 个 CLOSESPIDER ITEMCOUNT 参数 ， 在 抓 取 到 一 定数 量 的 Item Ji, KAEH, IERIE 
位 10 000 条 数据 。settings.py 添加 、 修 改 代码 如 下 : 


# Configure item pipelines 


# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html 
ITEM PIPELINES = { 


) 


'ithome.pipelines.IthomePipeline': 300, 


mE 10000 AGEN X BRUT d. 
CLOSESPIDER ITEMCOUNT — 10000 


# MongoDB 
MONGO URI = 'localhost:27017' 
MONGO DB = 'ithome' 
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10.1.7 ETER 


代码 编写 完毕 后 ， 


Wi 


ied, AZTAR, WA 10.3 所 示 。 


quest count': 10178, 
est_method_count/GET': 


ons_count/DropItem': 


7 count /INFO': 128, 
g_count/WARNING' :; 


— e 
pth max ; 


' scheduler /enqueued /memory': 


'start': datet ne.datetime(28 9 3, 1 


图 10.3 ERAR 1 
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从 图 10.3 中 可 以 看 到 ， 共 发 送 了 10178 次 请 求 ， 成功 200 状态 10062 条 ， 其 中 异常 状态 数据 : 
403 (Forbidden, 服务 器 理解 请 求 客户 端的 请 求 , 但 是 拒绝 执行 此 请 求 ) 状态 115 条 , 404 (Not found, 
服务 器 无 法 根据 客户 端的 请 求 找到 资源 ) 状态 1 条 ， 疏 虫 开始 时 间 22: 55: 21， 结 束 时 间 23: 01: 
48， 得 知 爬 虫 运行 了 6 分 钟 左 右 ， 疏 虫 的 运行 时 间 能 和 否 缩短 ， 以 提升 速度 ”需要 注意 的 是 ， 在 日 志 
中 ， 那 些 为 403 状态 的 数据 依然 可 以 打开 ， 如 图 10.4 所 示 ， 是 什么 原因 导致 这 种 问题 ， 如 何 进行 


避免 ， 也 就 是 爬虫 质量 如 何 提升 ? 


104 疏 取 结果 2 
我 们 将 通过 对 疏 虫 的 优化 设置 来 解决 上 述 问题 。 
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10.2 用 Benchmark 进行 本 地 环境 评估 


Benchmark 是 Scrapy 自 带 的 一 个 简单 的 性 能 测试 工具 ， 它 会 在 本 地 创建 一 个 HITP 服务 器 ， 
并 以 最 大 可 能 的 速度 对 其 进行 爬 取 。 目的 是 测试 本 地 执行 环境 的 效率 ,以 此 获得 一 个 用 于 对 比 的 基 
线 。 这 个 性 能 测试 使 用 一 个 很 简单 的 Spider， 仅 仅 是 跟 进 连接 ， 并 不 做 其 他 处 理 。 

执行 命令 : 


scrapy bench 

运行 输出 : 

$ scrapy bench 

2019-02-28 11:03:09 [scrapy.utils.log] INFO: Scrapy 1.5.1 started (bot: 
scrapybot) 

2019-02-28 11:03:09 [scrapy.utils.log] INFO: Versions: lxml 4.2.5.0, libxml2 
2,0.8, cssselect 1.0.3, parsel 1.5.1, w3lib 1.19.0, Twisted 18.5.0, Python 3.7.1 
(default, Dec 10 2018, 22:54:23) [MSC v.1915 64 bit (AMD64)], pyOpenSSL 18.0.0 
(OpenSSL 1.1.1a 20 Nov 2018), cryptography 2.4.2, Platform 
Windows-10-10.0.17763-SPO 

2019-02-28 11:03:11 [scrapy.crawler] INFO: Overridden settings: 
('CLOSESPIDER TIMEOUT': 10, 'LOGSTATS INTERVAL': 1, 'LOG LEVEL': 'INFO'] 

2019-02-28 11:03:12 [scrapy.middleware] INFO: Enabled extensions: 
['scrapy.extensions.corestats.CoreStats', 
'scrapy.extensions.telnet.TelnetConsole', 
'scrapy.extensions.closespider.CloseSpider', 
'scrapy.extensions.logstats.LogStats'] 

2019-02-28 11:03:13 [scrapy.middleware] INFO: Enabled downloader middlewares: 

['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware', 

'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware', 
'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware', 
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware', 
'scrapy.downloadermiddlewares.retry.RetryMiddleware', 
'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware', 
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware', 
'scrapy.downloadermiddlewares.redirect.RedirectMiddleware', 
'scrapy.downloadermiddlewares.cookies.CookiesMiddleware', 
'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware', 
'scrapy.downloadermiddlewares.stats.DownloaderStats'] 

2019-02-28 11:03:13 [scrapy.middleware] INFO: Enabled spider middlewares: 
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware', 
'scrapy.spidermiddlewares.offsite.OffsiteMiddleware', 
'scrapy.spidermiddlewares.referer.RefererMiddleware', 
'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware', 
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'scrapy.spidermiddlewares.depth.DepthMiddleware'] 

2019-02-28 11:03:13 [scrapy.middleware] INFO: Enabled item pipelines: 

[] 

2019-02-28 11:03:13 [scrapy.core.engine] INFO: Spider opened 

2019-02-28 11:03:13 [scrapy.extensions.logstats] INFO: Crawled 0 pages 
0 pages/min), scraped 0 items (at 0 items/min) 

2019-02-28 11:03:14 [scrapy.extensions.logstats] INFO: Crawled 53 pages 
3180 pages/min), scraped 0 items (at 0 items/min) 

2019-02-28 11:03:15 [scrapy.extensions.logstats] INFO: Crawled 117 pages 
3840 pages/min), scraped 0 items (at 0 items/min) 

2019-02-28 11:03:16 [scrapy.extensions.logstats] INFO: Crawled 181 pages 
3840 pages/min), scraped 0 items (at 0 items/min) 

2019-02-28 11:03:17 [scrapy.extensions.logstats] INFO: Crawled 237 pages 
3360 pages/min), scraped 0 items (at 0 items/min) 

2019-02-28 11:03:18 [scrapy.extensions.logstats] INFO: Crawled 293 pages 
3360 pages/min), scraped 0 items (at 0 items/min) 

2019-02-28 11:03:19 [scrapy.extensions.logstats] INFO: Crawled 341 pages 
2880 pages/min), scraped 0 items (at 0 items/min) 

2019-02-28 11:03:20 [scrapy.extensions.logstats] INFO: Crawled 389 pages 
2880 pages/min), scraped 0 items (at 0 items/min) 

2019-02-28 11:03:21 [scrapy.extensions.logstats] INFO: Crawled 437 pages 
2880 pages/min), scraped 0 items (at 0 items/min) 

2019-02-28 11:03:22 [scrapy.extensions.logstats] INFO: Crawled 485 pages 
2880 pages/min), scraped 0 items (at 0 items/min) 

2019-02-28 11:03:23 [scrapy.core.engine] INFO: Closing spider 
(closespider timeout) 

2019-02-28 11:03:23 [scrapy.extensions.logstats] INFO: Crawled 525 pages 
2400 pages/min), scraped 0 items (at 0 items/min) 
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2019-02-28 11:03:24 [scrapy.statscollectors] INFO: Dumping Scrapy stats: 


('downloader/request bytes': 234184, 

'downloader/request count': 541, 
'downloader/request method count/GET': 541, 
'downloader/response bytes': 1592745, 

'downloader/response count': 541, 

'downloader/response status count/200': 541, 

"tinisb reason': "closespider timeout', 

"tinish Lime": dateLime.dateLime[(2019, 2, 20, 3 X 24, 603355). 
'log count/INFO': 17, 

'request depth max': 19, 

"response received count: 34L, 

'scheduler/dequeued': 541, 

'scheduler/dequeued/memory': 541, 

'scheduler/enqueued': 10819, 

'scheduler/enqueued/memory': 10819, 

"start Cime datetime.datectime[(7019, 2, 28, 3, 3. 13, 674921) ] 


214 | Scrapy WAMWERE 


2019-02-28 11:03:24 [scrapy.core.engine] INFO: Spider closed 


(closespider timeout) 


说 明 本 地 环境 上 ，Scrapy 能 以 几乎 2400 页 面 /分 钟 的 速度 抓 取 数 据 。 然而 这 只 是 简单 的 跟 进 连 
接 ， 实 际 情况 下 扑 虫 会 做 更 多 的 数据 处 理工 作 ， 速 度 并 不 可 能 达到 这 个 测试 结果 。 


10.3 J RER 


10.3.1 增 大 并 发 


并 发 是 指 Scrapy 同时 处 理 的 Request 请 求 的 数量 。 类 型 有 全 局 限制 和 局 部 〈 针 对 每 个 网 站 ) 
限制 |。 

Scrapy 通过 在 settings.py 中 的 CONCURRENT REQUESTS 的 设 定 值 来 确定 请 求 并 发 数 。 然而 
多 数 情况 下 ，Scrapy 默认 的 全 局 并 发 限制 对 高 并 发 请 求 并 不 适用 ， 我 们 需要 重新 设置 这 个 值 。 一 
般 情况 下 需要 增 大 设置 值 , 增加 多 少 取决 于 设计 的 候 虫 能 占用 多 少 CPU. 一 般 开 始 可 以 设置 为 100 
左右 ,不 过 最 好 的 方式 是 做 一 些 测试 ， 获 取 Scrapy 进程 并 发 数 与 CPU 使 用 率 之 间 的 关系 ， 理 想 情 
况 下 ， 应 该 选择 一 个 能 使 CPU 使 用 率 在 80%~90% 的 并 发 数 。 

在 setting.py 中 设置 : 


CONCURRENT REQUESTS = 100 


10.3.2 关闭 Cookie 


前 面 的 章节 中 , 我 们 知道 Cookie 包含 网 站 的 一 些 认 证 信息 ,不幸 的 是 , 网 站 也 可 以 通过 Cookie 
记录 来 禁止 疏 取 ，Cookie 还 会 影响 CPU FHR., A, BRIER m, BAME Cookie, Li 
高 性 能 。 

在 settings.py 中 设置 : 


COOKIES ENABLED = False 


10.3.3 ”关闭 重 试 


对 大 量 的 网 页 数据 进行 仆 取 工作 时 ， 由 于 各 种 不 可 控 的 原因 ， 一 些 网 页 息 取 的 失败 时 有 发 生 。 
默认 情况 下 ，Scrapy 会 对 失败 的 HTTP 请 求 进 行 重 试 以 获取 数据 。 但 这 种 操作 会 减 慢 爬 取 的 效率 ， 
特别 是 当 网 站 啊 应 很 慢 时 , 访问 这 样 的 网 站 会 造成 超时 并 且 会 重 试 多 次 。 这 不 仅 影响 效率 ， 同 时 占 
H f JE dfe CBS fb pd ss ex H] VEUS 

在 settings.py 中 设置 : 


RETRY ENABLED - False 
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10.3.4 减少 下 载 超时 时 间 


当 疏 取 一 个 啊 应 很 慢 的 网 站 时 ， 在 设置 的 超时 时 间 结 束 前 ，Scrapy 会 持续 等 待 。 超 时 时 间 太 长 会 
占用 不 必要 的 资源 ， 减 少 下 载 超时 能 让 卡 住 的 连接 被 尽快 放弃 ， 释 放 资 源 去 处 理 其 他 的 候 取 工作 。 
在 settings.py 中 设置 : 


DOWNLOAD TIMEOUT = 5 


10.3.5 ”关闭 重 定 辣 


除非 对 跟 进 重 定 同感 兴趣 ， 否 则 应 考虑 关闭 重 定 同 。 当 进行 通用 扑 取 时 ， 一 般 的 做 法 是 保存 
重 定 同 的 地 址 ， 并 在 之 后 的 候 取 中 进行 解析 。 这 保证 了 每 批 仆 取 的 Request 数目 在 一 定 的 数量 ， 否 
则 重 定 同 循环 可 能 会 导致 付 虫 在 某 个 站 点 耗费 过 多 资源 。 

在 settings.py 中 设置 : 


REDIRECT ENABLED = False 


10.3.6 AutoThrottle 扩展 


AutoThrottle 扩展 基于 Scrapy Jl 25-8 RU IEE STUDUIT] Po snb H5] 6 RR A 9C AIT Ep E R47 E, 通 
常 称 为 自动 限 速 扩展 ， 这 一 扩展 设计 的 目的 是 : 


C1) 相 比 较 默认 的 下 载 延 迟 设 置 来 说 ， 上 自动 限 速 对 站 点 更 友好 。 
(2) 能 够 自动 调整 Scrapy 达到 最 佳 的 讨 取 速度 ， 所 以 使 用 者 无 须 上 自己 调整 下 载 延 迟 ， 只 需要 
定义 允许 最 大 并 发 的 请 求 数 ， 剩 下 的 就 由 该 扩展 组 件 自 动 完 成 。 

在 Scrapy 中 ， 下 载 延 迟 是 通过 计算 建立 TCP 连接 到 接收 到 HTTP 头 信息 (header) 之 间 的 时 
间 来 测量 的 。 

先 来 看 看 前 面 介 绍 的 下 载 延迟 设 定 ， 设 定 一 个 固定 的 DOWNLOAD DELAY 值 ， 再 根据 
CONCURRENT REQUESTS PER DOMAIN 或 者 CONCURRENT REQUESTS PER IP 的 启用 情况 来 
确定 适用 对 象 。 假 设 DOWNLOAD DELAY-3, CONCURRENT REQUESTS PER DOMAIN=16， 就 
会 每 3/16 秒 发 送 一 个 请 求 ， 以 达到 16 并 发 的 要 求 。 但 我 们 知道 ， 由 于 下 载 延 迟 很 得 ， 偶 尔 会 有 突 
发 的 请 求 ， 而 通常 情况 下 非 200 的 啊 应 〈 比 如 服务 器 错误 5000. 会 比 带 有 数据 啊 应 的 200 更 快 地 返 
回 给 客户 端 ， 由 于 设 定 了 固定 并 发 数 ， 这 样 会 有 更 多 的 并 发 请 求 会 提交 到 服务 器 ， 因 此 可 能 会 造成 
更 多 的 错误 返回 ， 因 为 错误 可 能 就 是 由 于 高 频率 的 请 求 导致 的 。 

再 来 看 看 AutoThrottle H ZIRE. 8 0 54 UL] AUTOTHROTTLE START DELAY 设 定 值 作为 
下 载 延 迟 开始 工作 。 当 啊 应 返回 时 ， 得 到 啊 应 延迟 latency， 这 时 下 载 延 迟 就 被 设 定 为 latency/N, N 
是 由 AUTOTHROTTLE TARGET CONCURRENCY 设 定 的 。 

下 一 个 请 求 的 下 载 延 迟 为 前 一 个 请 求 的 下 载 延 迟 与 第 二 步 计 算出 来 的 下 载 延 迟 的 平均 值 。 非 
200 的 啊 应 延迟 并 不 会 通过 第 二 步 的 计算 降低 下 载 延 迟 ， 最 终 调 整 的 下 载 延 迟 不 会 比 
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DOWNLOAD DELAY 设 定 值 低 ， 也 不 会 比 AUTOTHROTILE MAX DELAY 设 定 值 高 。 
下 面 介 绍 用 来 设 定 AutoThrottle 扩展 的 一 些 设 定 值 。 


a 即便 打开 了 AutoThrottle 扩展 ，CONCURRENT REQUESTS PER DOMAIN 和 


AUTOTHROTILE ENABLED: 默认 为 False， 表 示 是 否 启 用 AUTOTHROTILE 扩展 。 
AUTOTHROTTLE START DELAY: 默认 为 5.0, 43546 T 3XAER , 
AUTOTHROTILE MAX DELAY: 默认 为 60， 最 高 下 载 延 迟 。 
AUTOTHROTILE TARGET CONCURRENCY: 默认 为 1.0，Scrapy 同时 请 求 目标 网 站 的 平 
均 请 求 数 。 通 过 设 定 该 参数 ，AutoThrottle 可 以 动态 调整 请 求 数 ， 若 该 值 设置 得 高 ， 则 并 发 请 
求 数 增加 ; 若 该 值 设置 得 小 ， 则 请 求 并 发 数 减少 ， 对 目标 网 站 影响 更 小 。 


CONCURRENT REQUESTS PER IP 依然 生效 , 也 就 是 说 , 如 果 AUTOTHROTTLE 
TARGET CONCURRENCY 设 定 值 大 于 CONCURRENT REQUESTS PER DOMAIN 
和 CONCURRENT REQUESTS PER IP 设 定 值 ， 那 么 该 设 定 值 将 不 会 产生 作用 。 


Scrapy 项 目 实战 : ERREKARA EIA 


XT Scrapy 的 基本 知识 点 已 经 介绍 完毕 ， 下 面 通 过 一 个 完整 的 爬虫 实战 项 目 将 各 个 知识 点 串 
联 起 来 。 本 项 目 主要 抓 取 SegmentFault CHR) 社区 用 户 基本 信息 及 用 户 的 问答 得 票数 等 信息 。 下 
面 将 会 对 整个 项 目 进行 详细 讲解 。 

本 章 主 要 的 知识 点 有 : 

e Cookie 登录 

e Scrapy 代码 中 局 动 


11.1 项 目 分 析 


任何 项 目的 第 一 步 都 需要 进行 项 目 分 析 。 在 这 一 步 我 们 确定 需求 〈 抓 取 哪 些 数据 ) ， 确 定 抓 
取 策 略 (是否 需要 登录 、 如 何 保存 等 ) 。 因 此 ， 项 目 分 析 是 整个 项 目的 基础 。 


11.1.1 页 面 分 析 


照例 开始 对 目标 页 面 进行 元 素 分 析 ， 在 思 和 否 社区 随意 打开 一 个 用 户主 页 ， 查 看 用 户 信息 构成 ， 
如 图 11.1 所 示 。 
我 们 将 个 人 主页 分 成 4 部 分 ， 分 别 进行 编号 : 


第 一 部 分 ， 包 含 用 户 的 个 人 基本 信息 ， 如 声望 、 毕 业 院 校 、 公 司 等 ， 称 为 属性 面板 。 
第 二 部 分 ， 用 户 的 行为 数据 统计 ， 如 粉丝 人 数 、 关 注 数 、 提 问 数 、 回 答 数 等 ， 称 为 统计 面板 。 
e 第 三 部 分 ， 用 户 的 产 出 数据 ， 包 括 文章 、 回 答 、 提 问 等 ， 称 为 产品 面板 。 
e 第 四 部 分 ， 主 要 是 用 户 的 技能 标签 ， 称 为 技能 面板 。 
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图 11.1 Segmentfault 个 人 主页 


第 一 部 分 ， 属 性 面板 。 有 具体 包括 用 户 上 昵称、 声望 、 毕 业 院 校 、 专 业 、 公 司 、 职 位 、 个 人 博客 ， 
如 图 11.2 所 示 。 


CrazyCodes | sa=ses= 
ofa] 
计算 机 信息 技术 


北京 餐 咖 科技 有 限 公司 


图 11.2 用 户 属性 模块 


第 二 部 分 ， 统 计 面 板 。 我 们 需要 的 具体 包含 关注 数 、 粉 丝 数 、 回 答 数 、 文 章 数 、 讲 座 数 、 徽 
章 数 ， 如 图 11.3 所 示 。 单 击 “ 关 注 了 ”人 数 与 “粉丝 ”人 数 ， 可 以 查看 相关 联 的 用 户 信 息 ， 如 图 
11.4 所 示 ， 由 此 可 以 进入 用 户主 页 ， 继 续 抓 取 用 户 信息 。 由 于 单 击 “ 关 注 了 ”链接 进行 用 户 数据 得 
看 时 ， 会 跳 转 到 登录 页 面 ， 因 此 在 爬虫 运行 时 ， 我 们 使 用 Cookies 进行 登录 处 理 。 

另 一 点 是 需要 进行 具体 徽章 数 的 爬 取 ， 单 击 获取 征 章 数 ， 会 跳 转 到 获得 的 徽章 列表 页 面 ， 如 
图 11.5 所 示 。 

第 三 部 分 ， 产 品 面板 。 这 里 我 们 只 关注 回答 标签 页 中 得 票 最 高 的 回答 ， 然 后 提取 这 个 具体 问 
题 的 内 容 、 问 题 的 类 型 以 及 该 用 户 的 答案 ， 如 图 11.6 所 示 。 


得 票 最 


他 的 分 字 


一 


IR] 
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关注 的 标签 关注 的 人 关注 的 专栏 


TneLarkInn 
1037 声望 


member 


5566 F£ 


BUS] VES 


13007 声望 


XX19941215 
1950 声望 


Panda 
3122 E 


. 前 外 
2721 声望 


SAE 
5547 声望 


mPHSunny 
4163 声望 


图 11.4 关注 的 人 列表 


mus 提问 文章 


jquery ajax(s jsonp sri mjsonp: "callpack" 后 端 是 不 是 也 要 判断 下 ? 


假如 数据 库 连 接 数 只 有 1000， 怎 么 处 理 100 万 的 并 发 量 呢 ?不 能 用 负载 均衡 ，. 


mysq| 高 并 发 时 候 投 又 问题 如 何 优化 


为 什么 docker 容 器 启动 成 功 几 分 钟 后 又 自己 关闭 了 ? 


纯 himl 的 静 志 网 站 ， 为 什么 部 雪 到 服务 器 之 后 就 这 样 了 ?在 本 地 可 以 正常 访问 . 


数据 表 设 计 的 一 个 小 小 疑问 


php 数 组 引用 的 小 疑问 


根据 旅游 行程 该 如 何 设 计 mysq 路 x 据 表 的 结构 


PHP 访 问 控制 问题 


图 11.6 回答 列表 
的 答案 对 应 问题 的 信息 如 图 11.7 所 示 。 
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laravel 数 据 库 migrate 后 想 要 修改 数据 表 字段 信息 
P laravel 中 执行 php artisan migrate 53938 tSt ^ E11 


L EESRTENEAANSH HRA title FE ENKA 
撤回 的 笑 数据 就 没 了 HAAREN ARE EAEE 


| psiExiist psg AAE migration 从 星体 改 闻 上 成 信息 发 现 就 不 行 了 ) 


Ò GeekGhc ED 461 
2016-10-27 1zíz 


i&BSlaravelfetHBMPIEETTADAES, FE — ANERE, WAF 
php artisan make:migration alter tablename table --table-tablename 
然后 就 星 一 楼 的 写法 了 
Schema. table('users', function (Stable) { Stable-»string(title"-» default( 1')-» change(). )). 


ESHIT 


11.7 回答 问题 详细 页 


第 四 部 分 ， 技 能 面板 。 该 部 分 我 们 只 需要 抓 取 用 户 获 取 到 的 点 赞 数 与 擅长 技能 标签 即 可 ， 如 
图 11.8 所 示 。 
认证 与 成 就 
T? SegmentFault 讲师 


wp ”获得 4085 E 


W xxi 30 up 
获得 0 BUSES, 获得 4 BORRE, 
获得 26 PURRE 


Ex 88 
php css html ctt laravel linux 
A mysql! github docker 


图 11.8 技能 面板 


最 后 ， 我 们 在 页 面 底部 抓 取 用 户 的 注册 信息 。 这 个 注册 信息 有 多 种 表现 形式 ， 如 注册 于 2018 
年 10 月 12 日 、 注 册 于 3 天 前 、 注 册 于 8 小 时 前 ， 需 要 一 定 的 方法 进行 处 理 ， 如 图 11.9 所 示 。 


fut mE RT L- 
开源 项 目 & EF 
NGINXZEXEFiG PHPIESSS i 
一 球 乳 务 治理 架构 服务 探 供 阁 、 服 务 消 


MySQL XE REEL I Grace development 2018 
dBESRTE2018t 04 pit. 
PHPIEPREWSOAUBRSPERHE 
电 南 设计 系列 文章 
t iS JPHPERBIEC ES iHRETEBIEEGIBUAENÜRGIR. "HD, mv 


Emm eMEIIMTRCUS S Bot 
mE l MEREHIE HIH 


电 商 系 婉 设 计 之 订单 


再 来 一 波 PHP 程 序 员 必 后 书 秃 


qj csRPHPIBIESEGÉES E. 


BU PHPIRAEBUZAES— UL Re fu 


Supervisor MJ. Af 18lgg 


图 11.9 注册 日 期 
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11.4.2. 抓 取 流程 


从 页 面 分 析 完 元 素 之 后 ， 接 下 来 整理 数据 的 抓 取 流程 。 


(1) 使 用 Cookie 进行 登录 ， 确 保 抓 取 时 不 会 被 重 定向 到 登录 页 面 。 

2) 从 给 定 的 第 一 个 用 户主 页 开始 ， 抓 取 用 户 信息 。 

(GO 用 户 属性 信息 ， 统 计 信 息 中 的 数量 值 信息 、 技 能 信息 与 注册 日 期 信息 可 以 在 用 户主 页 进 
行 提取 。 

(4) 徽章 信息 和 回答 问题 信息 需要 进入 啊 应 的 页 面 进行 提取 。 

(5) 保存 用 户 数 据 到 MongoDB。 

(60 从 关注 人 和 粉丝 列表 中 提取 用 户主 页 链接 ， 保 存 至 调度 器 。 

CD 重复 第 (3) ~ (6) 步 。 


用 户 信息 抓 取 流程 图 如 图 11.10 所 示 。 


主页 提取 数据 


问题 详细 页 


图 11.10 Segmentfault 用 户 信 息 抓 取 流程 图 


11.2 ”创建 爬虫 


分 析 完 项 目 之 后 ， 开 始 进行 具体 代码 的 编写 。 由 于 项 目 中 需要 用 到 Cookie 进行 登录 ， 因 此 我 
们 先 要 准备 一 些 cookies。 我 们 可 以 使 用 Selenium 编写 一 个 小 程序 来 收集 cookies Jai, EEU 
程 中 通过 下 载 器 中 间 件 来 添加 cookies, 通过 Spider 中 间 件 Response， 比 如 前 面 介 绍 的 日 期 的 处 理 。 
先 来 创建 项 目 : 


>>>scrapy startproject segmentfault 


DEEE, EH CrawlerSpider 模板 创建 : 


>>>cd segmentfault 
>>>scrapy genspider -t crawl userinfo segmentfault.com 
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Scrapy REE Scd; 


接 下 来 开始 编写 部 分 代码 。 


11.2.1 cookies 收集 器 


我 们 使 用 Selenium 来 收集 cookies。 首 先 我 们 需要 准备 几 个 不 同 的 登录 账号 ， 使 用 不 同 的 账号 
登录 来 收集 cookies， 然 后 将 cookies 保存 在 MongoDB 中 。 在 settings.py 的 同 级 目录 中 创建 
get cookies.py XF, REA F: 


01 from selenium import webdriver 


02 from pymongo import MongoClient 


03 from scrapy.conf import settings 


04 
05 
06 
07 
08 
09 
10 
IT 
Le 
13 
14 
15 
16 
Ii! 
18 
19 
20 
Zr 
22 
23 
24 
293 
26 
VAT] 
28 
29 
30 
syl 
32 
33 
34 
35 
36 


class GetCookies (object): 
der Se DIE (sett) 


# 初始 化 组 件 

# 设 定 webdriver 选项 

self.opt = webdriver.ChromeOptions () 

$t self.opt.add argument ("--headless") 
# 初始 化 用 户 列表 

self.user list - settings['USER LIST'] 
# 初始 化 MongoDB 参数 

self.mongo ui = settings['MONGO URI'] 
self.db = settings['MONGO DB'] 
self.collection = "cookies" 


def get cookies (self,username,password): 


:param username: 
:param password: 


:return: cookies 


# 使 用 webdriver 选项 创建 driver 

driver = webdriver.Chrome (options-self.opt) 

driver.get ("https://segmentfault.com/user/login") 

driver.find element by name("username").send keys (username) 
driver.find element by name ("password") send keys (password) 
driver.find element by xpath("//button[Gtype- 'submit']").click() 
# 登录 之 后 获取 页 面 cookies 


cookies - driver.get cookies() 


return cookies 


def format cookies (self,cookies): 


S 
38 
DE 
40 
41 


42 


43 


44 
45 
46 
47 
48 


49 
50 


al 


52 


53 


54 
a 
56 
zy 
58 
59 
60 
61 
62 
63 
64 
65 
66 
67 
68 
69 
70 
71 
72 
73 
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:Param cookies: 
从 driver.get cookies 的 形式 为 : 
[('domain':'segmentfault.com','httpOnly':False,'name':'PHPSESSID', 
'path':'/','secure':False,'value': 
'web2-5grmfa89jl2eksub8hja3bvaq4'], 
('domain':'.segmentfault.com','expiry':1581602940, 'httpOnly': 
False, 
'name': 'Hm lvt e23800c454aa573c0ccbl6b52665ac26', 'path': '/', 
'secure': False, 
'value': '1550066940'], 
('domain': '.segmentfault.com', 'httpOnly': False, 
'name': "Hm lpvt e23800c454aa573cO0ccbl6b52665ac26', 
'path': '/', 'secure': False, 'value': '1550066940'], 
{ domain": '.segmentfault.com', 'expiry': 1550067000, 
'httpoOnly': False, 
"Hume -Nggb  C'DHbHOcO cure False value se 
('domain': '.segmentfault.com', 'expiry': 1550153340, 
'httpoOnly': False, 
UIOGNE COUGH V CDpHEB re ls vati 
'GA1.2.783265084.1550066940'], 
('domain': '.segmentfault.com', 'expiry': 1613138940, 
"httpoOnly': False, 'name': ' ga', 
'path': '/', 'secure': False, 'value': 
'GA1.2.1119166665.1550066940']] 
只 需 提 取 每 一 项 的 name 与 value 即 可 


"rerurn: 

p "t 

c = dict () 

for item in cookies: 
c[item['name']] = item['value'] 

return c 


def save(self): 


client - MongoClient (self.mongo ui) 

db = client[self.db] 

# 从 用 户 列表 中 获取 用 户 名 与 密码 ， 分 别 登录 获取 cookies 

for username,password in self.user list: 
cookies = self.get cookies (username,password) 
f cookies = self.format cookies (cookies) 
print("insert cookie:[]".format(f cookies)) 


# 将 格式 整理 后 的 cookies 插入 MongoDB 数据 库 


dblselfscollection|lsinsert one(f cookies) 
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74 

NOTER name == ' main  ': 
76 cookies = GetCookies() 
Fa cookies.save() 

78 


同时 ，settings py 中 的 MongoDB 与 用 户 列表 参数 设置 如 下 : 


# 配置 MONGODB 


MONGO URI = 'localhost:27017' 
MONGO DB = 'segmentfault' 
# 用 户 列 表 


USER LIST = [ 
("usernamel","passwordl"), 


("username2","password2"), 


] 


get cookies.py 中 代码 没有 什么 需要 特别 注意 的 地 方 ， 都 是 前 面 章节 知识 点 的 整合 。 唯 一 的 技 
巧 是 , 我 们 在 settings.py 文件 中 以 (username,password) 元 组 作为 USER LIST 的 元 素 , 这 样 可 以 直接 
遍历 username 与 password 作为 get cookies()IT] 2 Zi . 

查看 收集 到 的 cookies, "nf 11.11 所 示 。 


图 11.11 cookies 收集 


TR 
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Items 类 


接着 根据 我 们 前 面 的 分 析 定 义 Iem， 确 定数 据 结构 ，items.py 代码 如 下 : 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
Tt 
312 
23 
14 
:5 
16 
17 
18 
19 
20 
zI 
22 
23 
24 
25 
26 
Zu 
28 
29 
30 
E xl 
32 
33 
34 
33 
36 
Zu 
38 
39 
40 


i = aoee HuEtF- = 


Define here the models for your scraped items 


See documentation in: 


THso cH 间 cR 


https://doc.scrapy.org/en/latest/topics/items.html 


import scrapy 


class SegmentfaultItem(scrapy.Item): 
# define the fields for your item here like: 
# 个 人 属性 
# 姓名 
name = scrapy.Field() 
# 声望 
rank = scrapy.Field() 
# 学 校 
school = scrapy.Field() 
# 专业 
majors = scrapy.Field() 
# 公司 
company = scrapy.Field() 
# 工作 
job » scrapy.Field() 
t blog 
blog = scrapy.Field() 
# 社交 活动 数据 
# 关注 人 数 
following = scrapy.Field() 
# 粉丝 数 
fans = scrapy.Field() 
# 回答 数 
answers — scrapy.Field() 
# 提问 数 
questions = scrapy.Field() 
# 文章 数 
articles = scrapy.Field() 
* 讲座 数 


lives = scrapy.Field() 
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41 # 徽章 数 

42 badges = scrapy.Field() 

43 * 技能 属性 

44 # 点 赞 数 

45 like = scrapy.Field() 

46 * 技能 

47 skills = scrapy.Field() 

48 # 注册 日 期 

49 register date - scrapy.Field() 


50 # 问答 统计 
51 # 回答 最 高 得 票数 


52 answers top score - scrapy.Field() 

53 # 得 票数 最 高 的 回答 对 应 的 问题 的 标题 

54 answers top title - scrapy.Field() 

55 # 得 票数 最 高 的 回答 对 应 的 问题 的 标签 

56 answers top tags = scrapy.Field() 

57 # 得 票数 最 高 的 回答 对 应 的 问题 的 内 容 

58 answers top question - scrapy.Field() 
59 # 得 票数 最 高 的 回答 对 应 的 问题 的 内 容 

60 answers top content - scrapy.Field() 


11.2.3 Pipeline 管道 编写 


本 项 目 中 ， 我 们 将 数据 保存 至 MongoDB， 保 存 方法 与 前 面 章节 一 样 ，pipelines.py 代码 如 下 : 


01 request with cookies = Request (url-"http://www.example.com", 

07 4 —— coding: Hntt-B -*- 

03 

04 4 Define your item pipelines here 

05 # 

06 # Don't forget to add your pipeline to the ITEM PIPELINES setting 
07 4 See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html 
08 import pymongo 

09 

10 class SegmentfaultPipeline (object): 

11 4 WE MongoDB 集合 名 称 


12 collection name = 'userinfo' 

13 

14 def | init (self mongo uri,mongo db): 

15 self.mongo uri - mongo uri 

16 self.mongo db = mongo db 

DI 

18 4 通过 crawler 获取 settings .py FREH] MongoDB 连接 信息 
19 QGclassmethod 


20 def from crawler (cls,crawler): 


21 
2a 
23 
24 
293 
26 
21 
28 
29 
30 
T 
32 
33 
34 
35 
36 
31 
38 
39 
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return cls( 
mongo uri - crawler.settings.get('MONGO URI'), 
mongo db = crawler.settings.get('MONGO DB','segmentfault') 


* 4m ER: MongoDB 
def open spider (self,spider): 


self.client - pymongo.MongoClient (self.mongo uri) 
self.db = self.client[self.mongo db] 


+ MEX BIBIT MongoDB 连接 


def close spideriselr,spider): 


self.client.close() 


# 将 Item 插入 数据 库 保 存 


def process item(self, item, spider): 


self.db[self.collection name].insert one (dict (item)) 
return item 


不 要 忘记 在 settings.py 中 激活 编写 的 Pipeline: 


# Configure item pipelines 


# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html 
ITEM PIPELINES = { 


'segmentfault.pipelines.SegmentfaultPipeline': 300, 


11.2.4 Spider JE xr fft 


由 于 我 们 是 使 用 Cookie 进行 用 户 验 证 的 ， 因 此 需要 在 start requestO 中 进行 Cookie 登录 操作 ， 
然后 保存 Cookie 并 传递 。 登 录 之 后 ， 我 们 进入 初始 页 面 解 析 用 户 数据 ， 并 跟踪 Rule 中 定义 的 链接 
继续 抓 取 。 

在 爬虫 文件 userinfo.py 中 重 写 start request, fV F: 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 


y codng: urtt-g =i 


import scrapy 


import time 


from 
from 
from 
from 
from 
from 


scrapy import Request 

pymongo import MongoClient 
scrapy.linkextractors import LinkExtractor 
scrapy.spiders import CrawlSpider,Rule 
scrapy.http import FormRequest 
segmentfault.items import SegmentfaultItem 
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Tt 
i ez 
13 
14 
13 
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18 
1H 


20 
2i 
22 
23 
24 
23 


26 
zd 
28 
29 
30 
at 
32 
33 
34 
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36 
37] 


38 
39 
40 
41 
42 
43 
44 
45 
46 
47 


Scrapy bx 2&[E Scd; 


class UserinfoSpider (CrawlSpider): 


name = 'userinfo' 

allowed domains = ['segmentfault.com'] 

start urls - ['https://segmentfault.com/u/mybigbigcat/users/ 
following'] 


rules - ( 

# 用 户主 页 地 址 ， 跟 进 并 进行 解析 

Rule (LinkExtractor (allow=r'/u/\w+$'),callback="'parse item', 
follow-True), 

# 用 户 关注 列表 ， 跟 进 列表 页 面 ， 抓 取 用 户主 页 地 址 进行 后 续 操 作 

Rule(LinkExtractor(allow-r'/users/followed$'),follow-True), 

# 用 户 粉 丝 列表 ， 跟 进 列表 页 面 ， 抓 取 用 户主 页 地 址 进行 后 续 操 作 

Rule (LinkExtractor (allow=r'/users/following$'),follow=True), 

+ 跟 进 其 他 页 面 地 址 

Rule (LinkExtractor (allow-r'/users/[followed|following]? 
page-Md-*'),follow-True), 


def start requests (self): 
# 从 MongoDB 中 获取 一 条 Cookie， 添 加 到 开始 方法 
client - MongoClient (self.crawler.settings['MONGO URI']) 
db = client[self.crawler.settings['MONGO DB']] 
cookies collection - db.cookies 
# 获取 一 条 Cookie 
cookies - cookies collection.find one() 
# Cookie 中 的 'Hm lpvt e23800c454aa573c0ccb16b52665ac26' 
参数 是 当前 时 间 的 
#10 位 表示 法 ， 因 此 重新 填充 
cookies['Hm lpvt e23800c454aa573c0ccb16b52665ac26 '] = 
str(int(time.time())) 


return [Request ("https://segmentfault.com", 
cookies-cookies, 
callback-self.after login)] 


# 登录 之 后 从 start url 中 开始 抓 取 数据 
def after logsn(self, response): 
for url im selr.startb uris. 
return self.make requests from url (url) 


在 跟 进 规 则 rules 中 ， 我 们 需要 跟 进 4 种 链接 : 
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(1) Rule(LinkExtractor(allow-r'/u^w-$"), callback-'parse item', follow=True) 
用 户主 页 链接 ， 如 图 11.12 所 示 。 


Bj 


10 3k 关注 $ 
Console Sources Network Performance Memory Application 


3664657874-592656026b924 big64"» 


«div class-"profil 
</div> 
</div> 


11.12 用 户主 页 链接 


(2) Rule(LinkExtractor(allow-r'/users/followed$"), follow=True) 
用 户 关 注 列表 页 ， 如 图 11.13 所 示 ， 记 录 了 该 用 户 关 注 的 用 户 列 表 ， 只 需 跟 进 此 链接 进入 列表 
页 即 可 。 


E 13992394428 
0 声望 


T 关注 “加 关注 
声望 


他 的 主页 


entfault.com/u/zuozuomu/users/following 关注 ”加 关注 


Elements Console Sources Network Performance Memory Application 


wkdiv class-"profile heading-info row"™> 
: :before 
ve<div class="col-md-6 col-xs-6" style="border-right: 1px solid #eee;"> 
v«a hrefz"/u/zuozuomu/users/following"» == £9 
span» Ryt J </span> 
«span class="h5">15 人 </span> 


«/a» 


图 11.13 关注 用 户 列表 链接 


(3) Rule(LinkExtractor(allow=r'/users/following$'), follow=True) 
用 户 粉 丝 列表 页 ， 如 图 11.4 所 示 ， 记 录 了 该 用 户 的 粉丝 列表 ， 只 需 跟 进 链接 进入 列表 页 即 可 。 
x N b zac 关注 neu 
ila xir | 加 关注 
他 的 主页 
— «€ sot [ses 
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cdiv class-' col-md-6 col-xs-6'"» 


Y<a href="/u/zuozuomu/users/followed"> == TS 
ZZ < 


«span class="h5">758 人 </span> 
</a> 
</div> 


11.14 粉丝 列表 链接 


(4) Rule(LinkExtractor(allow-r'/users/[followed|following]?page- d--), follow-True) 
用 户 的 关注 列表 或 粉丝 列表 有 分 页 ， 如 图 11.15 所 示 ， 跟 进 每 一 页 的 链接 。 
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Ce 18502439798 
Qmm 


CE 
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¥<ul class="pagination"> 
*«li class-"active"» 
«a href-"javascript:void(0);"»1«/a» 
</li> 
w «c li » 


<a href="/u/zuozuomu/users/followed?page=2">2</a> 


图 11.15 列表 分 页 


在 after login0 方 法 中 ， 我 们 使 用 了 make request from url0 方 法 来 处 理 start. url 中 的 
链接 ， 这 时 因为 make request from url0 会 调用 parseO 进 行 后 续 处 理 ， 这 样 就 能 点 


CrawSpider 的 parse0 关 联 起 来 。 在 42.1 节 中 我 们 讲 过 ，CrawSpider 中 的 parse0 有 特 
殊 的 作用 不 能 进行 复写 ， 但 当 重 写 start TequestO 时 仍 需 将 其 关联 起 来 。 


用 户 信 息 提取 的 方法 为 parse item()， 在 用 户主 页 中 ， 可 以 直接 提取 的 数据 如 下 : 
(1) 个 人 属性 面板 数据 


48 def parse item(self, response): 


49 inis 
50 :param response: 
nk :return:request with item as meta 
52 siis 
53 item = SegmentfaultItem() 
54 # 个 人 属性 
59 profile head - response.css('.profile heading") 
56 # 姓名 
"ny item['name'] - profile head.css('h2[class*-name]::text'). 
re TirstIr ^w") 
58 # 声望 
59 item['rank'] — profile head.css('.profile Tank Din > span::text'). 


extract ErrsELD 


60 # 学 校 专业 信息 


61 school info - profile head.css('.profile  school::text').extract () 
62 if school info: 

63 # 学 校 

64 item['school'] = school info[0] 

65 # 专业 

66 item['majors'] - school info[1].strip() 

67 else: 

68 item['school'] = '' 


69 item['majors'] = '' 
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70 # 公司 职位 信息 


71 company info = profile head.css('.profile  company::text').extract() 
12 if company info: 

73 # 公司 

74 item['company'] = company info[0] 

75 # 职位 

76 item['job'] - company info[1].strip() 

Ld else: 

78 item['company'] = '' 

79 item['job'] = "" 

80 # 个 人 博客 

81 item['blog'] - profile head.css('a[class*-other-item-link]:: 


attrihrer)'J.extract Iirsti) 
82 


提取 元 素 时 ， 要 注意 灵活 选择 方法 ， 包 含 换行 、 空 格 等 非 打 印字 符 时 ， 首 选 正则 表达 式 。 在 
处 理学 校 及 公司 时 ， 我 们 需要 加 一 点 判断 。 先 看 一 下 学 校 与 公司 的 元 素 定 位 ， 如 图 11.16 所 示 。 


守候 sc e^e 


© 17020 F 个 web 前 应 新 手 ， 正 在 cb 前 

在 社区 希望 紫 和 大 家 相互 学 习 ， 

广 车 机 电 职 业 技 术 学 院 ”软件 技术 (ien HERAA. 学习 到 的 知识 分 
— T E 

ce ee 以 后 有 所 成 就 的 我 ， 一 定 会 大 

ements Console Sources Network Performance Memory Application Security Aud 


b< 3ss-"fa duation-canp 


v«span class-"profile school'» == $0 
"广东 机 电 职 业 技术 学 院 " 
«span class-"profile heading--other-item-fgx "»&nbsp;&nbsp; | &nbsp;&nbsp; « / span» 
"软件 技术 《网 站 设计 》 


><span class-"profile heading-edit btn btn-xs " data-type-"school"»..«/span? 


1116 pug E. 


学 校 专 业 在 一 个 <span class-"profile school"> 标 签 中 ， 使 用 extract0 提 取 标 签 中 的 文本 时 ， 文 
本 列表 第 一 项 即 为 学 校 信息 , 第 二 项 为 专业 信息 ,但 需要 注意 一 点 , 有 的 用 户 并 没有 填写 学 校 信息 ， 
此 项 数据 可 能 为 空 ,在 根据 列表 下 标 取 数 时 就 会 报错 。 因 此 我 们 需要 先 做 数据 是 否 存在 的 判断 ， 再 
来 取 数 。 如 果 为 空 ， 就 填充 空 数据 。 公 司 数据 也 是 一 样 处 理 的 。 


(2) 个 人 统计 面板 数据 
83 4 统计 面板 模块 


84 profile active = response.xpath ("//div[@class='"col-md-2']") 

85 4 关注 人 数 

86 item['following'] —-profile active.css('div[class*—-info] a^ .h5::text 小 = 
re (r'Nd*') [0] 

87 # 粉丝 人 数 

88 item['fans'] - profile active.css('div[class*-info] a » .h5::text'). 
re (r'\d+') [1] 
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89 4 回答 问题 数 


90 item['answers'] = profile active.css('a[href*-answer] .count::text'). 
TC CEPESLIE Ad E") 


91 # 提问 数 

92 item['questions'] - profile active.css('a[href*-questions]. 
EDUDIL. S LExC orbe IrpSb Dp Ada") 

93 $ 文章 数 


9^ item|'articles'] -profiie active.css('a[hreF^-articles] Count: text ): 
re first (r'WMd*') 


95 4 讲座 数 

96 item|'lives'] — profile active.css('a[hret*-Iives|.count::text']. 
OO 

97 + 徽章 数 


98 item['badges'] - profile active.css('a[href*-badges].count::text'). 
re ErrsE QE Ade) 

99 4 徽章 详细 页 面 地 址 

l00badge url = profile active.css('a[href*-badges]::attr(href)"'). 
extract PICSEL) 

101 


统计 面板 数据 大 部 分 都 是 数字 ， 配 合 正 则 提取 较为 方便 ， 这 里 将 徽章 详细 页 面 地 址 保存 下 来 ， 
后 续 进 行 徽章 数据 抓 取 。 


(3) 个 人 产 出 数据 模块 
1024 产 出 数据 模块 


103profile work = response.xpath("//div[8class-'col-md-7']") 

1044 回答 获得 的 最 高 分 

l05item['answers top score'] = 
profile work.css('£&navAnswer .label::text').re first(r'Md*') 

1064 最 高 分 回答 对 应 的 问题 的 标题 

107item['answers top title'] = profile work.css('#navAnswer 
div[class*-title-warp] > a: cLExE'jJ.exbEroct FrrSET) 

108 最 高 分 回答 对 应 的 问题 的 URL 

l09answer url = profile work.css ('#navAnswer div[class*-title-warp] > 
a "telnet ).extract Frrsrt] 

110 


同样 ， 这 里 将 问题 的 地 址 保存 下 来 ， 后 续 进 行 详细 的 数据 抓 取 。 
(4) 个 人 技能 面板 模块 


1113s 技能 面板 模块 

ll2profile skill - response.xpath("//div[8class-'col-md-3']") 
1133 技能 标签 列表 

114Eem[ slls" | = profile skill.css(" .Eag::texbE"].re(r' Aw") 


1154 获得 的 点 赞 数 
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loliteml Tike | = profile skril.css( sauthlist ).re Tirst (r' 获 得 (\d+) 
次 点 赞 ' ) 
1173 注册 日 期 
118 item| register date 1 = profile skill.css('.profFile skilli- otber 
tetext] extract first) 
119 


将 注册 日 期 放 在 此 处 一 并 抓 取 。 由 于 注册 日 期 有 3 种 情况 : 注册 于 2015 年 12 H 12 日 、 注 册 
T 3 天 前 、 注 册 于 3 小 时 前 ， 因 此 不 能 简单 地 抓 取 数字 ， 对 于 这 种 复杂 的 情况 ， 需 要 在 Spider 中 
间 件 中 进行 处 理 ， 这 个 在 后 面 进行 介绍 。 


(5) 二 级 页 面 抓 取 
最 后 ， 将 个 人 主页 没有 抓 取 到 的 数据 ， 如 徽章 详细 数 、 回 答 的 问题 的 详细 内 容 ， 将 要 继续 抓 
Hx fj URL 作为 meta 中 的 参数 通过 Request 传递 ， 并 调用 相应 的 处 理 方法 ， 代 码 如 下 : 


1204 将 需要 继续 跟 进 抓 取 数 据 的 URL 与 Item 作为 参数 传递 给 相应 方法 继续 抓 取 数 据 
121request = scrapy.Request( 

122 s 问题 详细 页 URL 

123 url-response.urljoin(answer url), 

124 meta-( 

125 # item 需要 传递 


126 'item':item, 

127 * 徽章 的 URL 

128 'badge url':response.urljoin(badge url)], 
129 # 调用 parse ansser 继续 处 理 

130 callback-self.parse answer) 


131yield request 
137 


对 于 问题 的 详细 页 ， 我 们 需要 抓 取 的 数据 有 问题 的 标签 、 问 题 的 内 容 以 及 最 高 分 答案 的 内 容 ， 
问题 标签 与 问题 内 容 定 位 如 图 11.17 所 示 。 


defer 和 async 的 区 别 


AM 在 Vasciipl 高 级 程 麻 设 计 旦 ， 介 绍 了 有 关 gefefF0asynmc 的 区 别 ， 可 旦 比较 浅显 ， 串 位 大 牛 能 说 胡 白 些 。 
35 = 


- na TE ee om 六， 
Elements Console Sou Network Performance Memon Application Security Audits AdBlock 
P«h1 class-"h2 post-topheade "fo--title" id-"questionTitfle" data-id- 18108009300548869";..:/h1» 
<ul class= acsi -inline inline pck question title--fag nr18 > 
agPopnun 


ag" href-"/t/javascnript' data gle-"popéver' data-img- https://avatar-static.segnmentfault. con/195/8237 1958237458- 
1040090000089436  huge256" data-placement- top  data-ofiginal-title-"javascr ipt data- Ad 104900000008943 


javascript 


Ja» 
/1i 

/ul 

span»67.9k«/span» 

”次 浏览 


</div> 
idiv 
Yvw«article class LL question ite 
pos di 


;:before 

«p»t£javascript mie IRRTEE , Tria TB XaerenfüasyncB][E 94, MEHNAT, MAERAH. </p> -= $e 
;after 

/div 


11.17 问题 详情 页 
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回答 内 容 元 素 定 位 如 图 11.18 所 示 。 


由 来 试 个 一 句 话 解释 仁 ， 当 浏览 器 磁 到 script 脚本 的 时 候 : 
1. «script src-"script.js"»«/script» 
没有 defer BÉ async ， 浏 览 器 会 立即 加 载 并 执行 指定 的 脚本 ， VI EE script 标签 之 下 的 文档 元 素 之 
前 ， 也 就 是 说 不 等 待 后 续 载 入 的 文档 元 素 ， 读 到 就 加 载 并 执行 。 
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v«div class-"answer fmt" data-id-"1020000000641029"» 


<p> 
"AREN DAR. HA assia" 


<code>script</code> 
”脚本 的 时 候 : ” 
< /p » 
Y «01» 
vcli» 
We p > 
«code»«script src-"script.js"»«/script»«/code» 
< /p > 
We p> 
"没有 " 
«code»defer« / code» 
" 或 " 
«code»async« /code» 


”， 浏 览 器 会 立即 加 载 并 执行 指定 的 脚本 ，“ 立 即 ” 指 的 是 在 泻 染 该 " 


11.18 回答 内 容 定位 
userinfo.py 代码 文件 中 parse_answer0 方 法 代码 如 下 : 


133def parse answer (self,response): 

134  # 取出 传递 的 item 

135 item = response.meta['item'] 

136 + 取出 传递 的 徽章 详细 页 URL 

137 badge url - response.meta['badge url'] 

138 + 问题 标签 列表 

139 item['answers top tags'] = response.css 
(".question title= -tag .Lag::tLexE").re(r' wt") 

140  # 先 获取 组 成 问题 内 容 的 字符 串 列 表 

141 question content - response.css('.widget-question item p') 
Pel (22s) 


142 # 拼接 后 传 入 item 


143 item['answers top question'] - ''.join(question content) 
144 + 先 获 取 组 成 答案 的 字符 串 列 表 
145 answer content - response.css('.qa-answer » article .answer') 


TETES 3p] 
146  # 拼接 后 传 入 item 
147 item['answers top content'] - ''.join(answer content) 
148 
149 + 问题 页 面 内 容 抓 取 后 继续 抓 取 徽章 页 内 容 ， 并 将 更 新 后 的 item 继续 传递 
150 request = scrapy.Request (url-badge url, 
EE meta-[('item':item], 
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157 callback-self.parse badge) 
153 yield request 
154 


在 抓 取 完 问题 页 面 的 数据 之 后 ， 继 续 传 递 tem 给 parse badge0， 抓 取 徽 章 数 据 进 行 填 充 ， 微 
章 页 面 需要 抓 取 徽章 名 称 与 数量 ， 如 图 11.19 所 示 。 


ARE 
12 人 10934 人 
他 的 主页 


他 的 回答 


wana 
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«hd class- profile-mine heading f.-/h4^ 
«div class-"profile-mine  contg mt28'» 
Yv«div class="row 

: :before 

v«div class-"col-md-3 
v«a class-"profilgff badges-item" href-"/ 
v«span class=" dge badge--sf badge--go, 
í c nd icon" e 13s 


11.19 徽章 详情 页 
parse badge0) 方 法 代码 如 下 : 


155def parse badge (self,response): 

156 item = response.meta['item'] 

IST badge name = response.css('span.badge span::text').extract () 
158 badge count - 


response.css('span[class*-badges-count]::text').re(r'Md-*') 


159 name count = {} 

160 for i in range(len(badge count)): 

161 name count[badge name[i]] - badge count[i] 
162 item['badges'] - name count 


163 yield item 


将 徽章 名 称 与 数量 组 成 字典 类 型 ， 将 所 有 徽章 统计 做 成 列表 存 入 item 中 ， 最 后 返回 item. 


11.2.5 ”Middlewars 中 国 件 编 与 


处 理 完 爬 虫 文件 之 后 ， 还 需要 进行 中 间 件 的 处 理 。 在 前 面 的 爬虫 文件 中 ， 对 于 注册 日 期 ， 因 
为 数据 的 多 样 ， 无 法 直接 提取 数据 保存 ， 所 以 我 们 需要 在 SpiderMiddlewares 中 进行 处 理 。 
middlewares.py 中 SegmentfaultSpideMiddlerare 代码 如 下 : 


dbs —— roding: Hbr-B -*- 
02 
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03 
04 
05 
06 
07 
08 
09 
10 
11 
17 
13 
14 
25 
16 
17 
18 
19 
20 
ra 
22 
23 
24 
29 
26 
2 
28 
29 
30 
31 
32 
33 
34 
35 
36 
31 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 


Scrapy WEES 


i Define here the models for your spider middleware 


# 


# See documentation in: 


# https://doc.scrapy.org/en/latest/topics/spider-middleware.html 


import 
import 
import 
import 


import 


random 
re 
datetime 
scrapy 


logging 


from scrapy.conf import settings 


from pymongo import MongoClient 


logger 


= logging.getLogger( name ) 


class SegmentfaultSpiderMiddleware (object): 


处 理 Item 中 保存 的 三 种 类 型 注册 日 期 数据 : 
1. 注册 于 20154E 12 H 12H 

2. 注册 于 3 天 前 

3. 注册 于 5 小 时 前 


def process spider output (self, response, result, spider): 


输出 response 时 调用 此 方法 处 理 item 中 register date 
:param response: 

:param result: 包含 item 

:param spider: 

: return :处 理 过 注册 日 期 的 item 


for item in result: 

# 判断 获取 的 数据 是 否 是 scrapy.item 类 型 

if isinstance(item,scrapy.Item): 
# 获取 当前 时 间 
now = datetime.datetime.now() 
register date - item['register date] 
logger .info(" 获 取 注 册 日 志 格式 为 {}" .format (register date)) 
# 提取 注册 日 期 字符 串 ， 如 ' 注 册 于 2015 年 12 月 12 日 ' => '20151212' 
day -» ''.join(re.findall(r'NMd-*',register date)) 
E 如 果 提 取 数 字 字符 串 长 度 大 于 4 位 , 则 为 ' 注 册 于 2015 年 12 月 12 日 ' 形 式 
if len(day) > 4: 

date = day 

# 如 果 ' 时 "在 提取 的 字符 串 中 ， 则 为 ' 注册 于 8 小 时 前 "形式 


elif ' 时 ' in register date: 
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48 d = now - datetime.timedelta (hours-int (day)) 
49 date = d.strftime ("$Y£$m$d") 

50 # 最 后 一 种 情况 就 是 "注册 于 3 天 前 ' 形 式 

3l else: 

57 d = now - datetime.timedelta (days-int (day)) 
53 date = d.strftime ("$Y$m$d") 

54 

55 + 更 新 register date 值 

56 item['register date'] - date 

57 yield item 

58 


process spider output()7; E Spider 输出 Response 时 被 调用 , 先 判断 register item 类 型 ,再 来 
使 用 datatime 计算 注册 日 期 。now 为 当前 日 期 ， 使 用 datetime.timedelta 将 提取 到 的 “3 天 前 ”“5 
小 时 前 ”， 在 参数 中 指定 days 或 hours， 转 化 为 datetime 类 型 ， 再 使 用 now 减 去 该 时 间 即 为 注册 时 
间 。 最 后 使 用 strfime0 方 法 转化 为 “20171208” 型 字符 串 。 

在 middlewares.py 中 ， 我 们 还 需要 编写 两 个 DownloadMiddleware， 分 别处 理 User-Agent 与 
cookies。 其 中 ，SegmentfaultUserAgentMiddleware 在 每 次 请 求 前 各 Request 中 随机 添加 User-Agent. 
SegmentfaultCookiesMiddleware 有 两 个 目的 : 一 是 每 次 请 求 添加 cookies， 二 是 在 发 生 重 定 癌 到 登录 
页 面 时 ， 蔡 换 原 来 的 cookies， 并 将 原来 的 cookies 删除 。 这 两 个 DownloadMiddleware 中 间 件 代码 
如 下 : 


59 class SegmentfaultUserAgentMiddleware (object): 


60 der C init {seli}: 

61 self.useragent list - settings['USER AGENT LIST'] 
62 

63 def process requestiselr, request, spider] - 

64 user agent - random.choice(self.useragent list) 
65 

66 # logger.info(' 使 用 的 USE USER-AGENT:()'. format (user agent) ) 
67 request.headers['User-Agent'] - user agent 

68 

69 

70 

71 class SegmentfaultCookiesMiddleware (object): 

22 client - MongoClient (settings['MONGO URI']) 

73 db = client[settings['MONGO DB']] 

74 collection - db['cookies'] 

15 

76 def get cookies (self): 

X xke 

78 随机 获取 cookies 

79 :return: 


80 nmm 
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81 


82 
83 
84 
85 
86 


87 
88 
89 
90 
91 
92 
93 
94 
53 
96 
97 
98 
99 
100 
101 
102 
103 
104 
105 
106 
107 
108 
109 
110 
TIL 
112 
ILS; 
114 
115 
116 


118 
T1 
120 
LT 
122 
123 
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cookies - random.choice([cookie for cookie in 
self.collection.find()]) 

# 将 不 需要 的 "” id" 与 " gat" 参 数 删除 

cookies.pop(' id') 

cookies.pop(' gat') 

# 将 "Hm lpvt e23800c454aa573c0ccb16b52665ac26"3& 75 24 Bil Es] [8] 

cookies['Hm lpvt e23800c454aa573c0ccbl16b52665ac26'] = 
str(int(time.time())) 


return cookies 


def remove cookies (self,cookies): 


删除 已 失效 的 cookies 
:param cookies: 
:return: 


+ 随机 获取 cookies 中 的 一 对 键 值 ， 返 回 结果 是 一 个 元 组 

i = cookies.popitem() 

# 删除 cookies 

try 
logger.info ("HK cookies()".format (cookies)) 
self.collection.remove(í(i[0]:i[1]]) 

except Exception as e: 


logger.info("No this cookies:í()".format (cookies)) 


der process request (sett, request, sprder] 


为 每 一 个 request 添加 一 个 cookie 
:param request: 

:param spider: 

SPERITE 

nnn 

cookies = self.get cookies() 
request.cookies = cookies 


det process: response[selt,reguest, response spider): 


对 于 登录 失效 的 情况 ， 可 能 会 重 定向 到 登录 页 面 ， 这 时 添加 新 的 cookies 继续 ， 
将 请 117 求 放 回调 度 器 

:param request: 

:param response: 

:param spider: 

PEEL 


if response.status in [301,302]: 


124 
LA 
126 
1271 
128 
129 
130 
£31 
132 
233 
134 
135 
136 
LU 
138 
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logger.info("Redirect response: {}".format (response)) 

redirect url - response.headers['location'] 

iL b'/user/fogin' in redirect url- 
logger.info("Cookies 失效 ") 


# 请 求 失败 ， 重 新 获取 一 个 Cookie， 添 加 到 Request， 并 停止 后 续 
# 中 间 件 处 理 此 Request， 将 此 Request 放 入 调度 器 

new cookie = self.get cookies'!() 

logger .info(" 获 取 新 cookie:()".format (new cookie)) 

# 删除 旧 cookies 

self.remove cookies (request.cookies) 
request.cookies - new cookie 


return request 


FELurH response 


在 settings.py 中 添加 USER_ AGENT LIST 列表: 


01 
02 
03 


04 
05 
06 


07 
08 


09 


10 
11 


IZ 
23 
14 
23 


16 
LY 


18 
19 
20 


# User-Agent 列表 
USER AGENT LIST - [ 
'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 
(KHTML, like Gecko) 
Chrome/39.0.2171.95 Safari/537.36 OPR/26.0.1656.60', 
'Opera/8.0 (Windows NT 5.1; U; en)', 
'Mozilla/5.0 (Windows NT 5.1; U; en; rv:1.8.1) Gecko/20061208 
Firefox/2.0.0 Opera 9.50', 
'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; en) Opera 9.50', 
'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:34.0) Gecko/20100101 
Firefox/34.0', 
'Mozilla/5.0 (X11; U; Linux x86 64; zh-CN; rv:1.9.2.10) Gecko/20100922 
Ubuntu/10.10 
(maverick) Firefox/3.6.10', 
'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, 
like Gecko) 
Chrome/39.0.2171.71 Safari/537.36', 
'Mozilla/5.0 (X11; Linux x86 64) AppleWebKit/537.11 (KHTML, like Gecko) 
Chrome/23.0.1271.64 Safari/537.11', 
'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 
(KHTML, like 
Gecko) Chrome/10.0.648.133 Safari/534.16', 
'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, 
like Gecko) 
Chrome/21.0.1180.71 Safari/537.1 LBBROWSER', 
'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 
732; .NET4.0C; NETA. 0E; LBBROWSER)', 
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30 
31 
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'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 
7132; .NET4.0C; .NET4.0E)', 
'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/535.11 (KHTML, like Gecko) 
Chrome/17.0.963.84 Safari/535.11 SE 2.X MetaSr 1.0', 
'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; 
SV1; QODownload 
7132; .NET4.0C; .NET4.0E; SE 2.X MetaSr 1.0)', 
'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, 
like Gecko) 
Maxthon/4.4.3.4000 Chrome/30.0.1599.101 Safari/537.36', 
'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, 
like Gecko) 
Chrome/38.0.2125.122 UBrowser/4.0.3214.0 Safari/537.36' 


] 


SegmentfaultUserAgentMiddleware 中 的 代码 很 容易 理解 ， 从 settings.py 配置 的 
USER AGENT LIST 随机 获取 一 个 User-Agent 添加 到 Request 中 。 

在 SegmentfaultCookiesMiddleware 中 ,我 们 添加 了 两 个 方法 : get cookies) remove cookies(), 
分 别 用 于 从 数据 库 中 获取 cookies 与 移 除 失效 的 cookies。 在 process_response0 方 法 中 ， 我 们 根据 
response 状态 码 是 否 为 301、302 判断 重 定 问 ,如果 重 定 同 到 了 登录 页 面 , 就 说 明 cookies 已 经 失效 ， 
重新 添加 cookies， 并 删除 原 cookies。 

别 忘 了 在 settings.py 中 激活 SpiderMiddleware 与 DownloadMiddleware: 


01 
02 
03 
04 
05 
06 
07 
08 


09 
10 
11 
17 
13 


i Enable or disable spider middlewares 

# See https: //doc.scrapy.org/en/latest/topics/spider-middleware.html 

SPIDER MIDDLEWARES = { 
'segmentfault.middlewares.SegmentfaultSpiderMiddleware': 543, 


i Enable or disable downloader middlewares 
# See https://doc.scrapy.org/en/latest/topics/ 
downloader-middleware.html 
DOWNLOADER MIDDLEWARES = { 
'segmentfault.middlewares.SegmentfaultUserAgentMiddleware':643, 
'segmentfault.middlewares.SegmentfaultCookiesMiddleware':743, 


} 


11.2.6 run 启动 器 


前 面 我 们 都 是 从 命令 行 启 动 朴 虫 的 ， 有 一 个 问题 是 不 方便 打 断 点 调试 。Scrapy 提供 了 命令 行 
方法 ， 利 用 此 方法 可 以 在 代码 中 启动 息 虫 。 在 setting.py 同 级 目录 创建 run.py 文件 ， 代 码 如 下 : 


01 
02 
03 
04 


from scrapy import cmdline 


from segmentfault.get cookies import GetCookies 


x name L— e mHrm 三 


05 
06 
07 
08 
09 
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cookies 


cookies.save() 


name 'userinfo' 


GetCookies() 


cmd = 'scrapy crawl í(]j'.format (name) 


cmdline.execute (cmd.split ()) 


Scrapy 中 启动 命令 行 的 方法 为 cmdline.execute0， 将 cmd 命令 传 入 执行 即 可 。 另 外 ， 我 们 添加 
cookies 收集 器 get_cookies.py， 获 取 cookies 执行 仆 虫 命令 即 可 。 人 至 此 ， 整 个 项 目 代 码 编写 结束 。 
执行 rmn.py， 查 看 结果 。 保 存 的 cookies 如 图 11.20 所 示 。 收 集 到 的 用 户 数据 如 图 11.21 所 示 。 


* MongoDB Compass - localhost:37017/segmentfault.cookies 


Connect View Collection Help 


admin 

config 

lianjia 

local 

os L 
cookies 


userinfo 


local 
segmentfault 
cookies 


usennio 


xalhost 27017 


STANDALONE 


segmentfault.cookies 


Documents ggrega 


ETs gnent LS uM VEV im UST 


# cookies 

id Objectrd 

5c67c8d3*ed7e748 ?0f939f* 
5c67c8e5*ed7e746 ?0t 93300 
5c67c1135e0d7672e06355fec 
5c67c143£0d7067435428523f 
Sc87c 14d T ed7e743 54285220 
S5Sc67c549fed7e7470432127b 
sce7cs53fed7e7470432187C 
5C69536376ed7e7 5eeefc7bse 
5c695979*6cd7e7 $0e0fC7b57 
Sc69598C*ed7e7 S8eütc7b58 
5c69555cfed7e758e6£c7b59 
5c6955an£ed7e756e06£c7b5a 
Sc8953b4*ed7e75eeefc7bsb 
Sce&953bffed7e75eeefc7bsc 
SC6953C3fed7e7 seeefc7bsd 
SCe953esfed7e7 seeefc7bse 


Sc6959fb*cd7e7 5eeetc7bS* 


# userinfo 
id 001ectIG 
5c69S0a0*cd7c710b4441284 
5c6350b2*ed7c 710b4441255 
5c69S0bc*cd7e710b4441296 
5c69Sdbe*ed7e710b4441297 
5C635d0b*4ed7e710b4141252 
5C6350c3*ed7e718b42412s9 
5Ce350cs*ed7e7180b4241258 
5C695üce*ed7e718b42412sb 
5Ce350ce*ed7e710b444128C 
5Ce350ce*ed7e710b444122d 
5C6350c7*ed7e710b42412se 
5c635dc7fed7e718b424125f 
5c778376fed7e751a42179ca 
5c7733771ed7e751a42179cb 
5c7733771ed7e751842179cc 
5c778388fed7e6751242779cd 


5c778398fed7e751a42179ce 


图 11.21 


PHPSESSID String 

web1-8knió5nf 1111k413945vp3n25 
webi-sgactejnbh1701fl90Dh696kr 
web1-thagtg052jetbnlbnvfivhtgn 
web1-7qdrt8fginpenr147dop64r1; 
webl-fgePoriir7tj4olisjtpe3bf3 
web1«jSegpn2emcS21hrolekeevésa 
webz-qiebsgpqvfzsesjetansucegi 
webi-gepinrn;ipestoeuslsti2gsn 
web2-elclrcf8usfrfontugfihü4sp 
web2-99o0cq5igiteecgvjuiceepils 
web2-o1nod2eg6ht5bef1233k7h381 
web2-e3536ttbf1fgbt89rqhepc3eq 
ns3qfsEca 


webl-gne423tcelsrábbfr 


web1«ekau27gs5q2784ggojn3ehbius 
"pf*searnktaabsm7a9cbc318s 


1-ohíiaiprunh4inaelghazsksko 


-50*4c11nj1j61K1kgnaps 3637 


name String 


"webfansplz* 


-mera 


"dreamans * 
"xt 


"buildupchao' 


DOCUMENTS 21 


io 5tring 
"PzFJtrLaLMlulXCIpzt2" 
"p GKo2532qSFyMvvpzuJ" 
*d67x5322]16x6f csapzvu" 
*aGBMWNCctickCGdhHpzwo" 
"OgPycpObNvALL Fntpzwy" 
"h7 c26v1Rde&EyiDr&peGc" 
"wuEPTImWpfr-zXG33J EpsG2" 
"K3pSPAYCDVJKX SRIDpQIN" 
"ünPeeIaxHfCKkTz9paIf" 
"ncNBtCn18Q01H6R4paIu" 
' qw Nz y5wrND7 ND dzDpa35" 
*96d97z xgbks5ThtRMpa2x" 
"mne9n78s8LiSYezipg3k" 
' zQeqGE Sue X1Th fexpa3p" 

ad«OLGpq21" 
 SpuRXYDLS11dIDpQkM" 


"1XA S4LbxOpn5GS1pakz" 


rank String 


收集 到 的 用 户 数据 


Hum ]vt ce238566c45420573c8ccb16b 
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MongoDB 4.0.5 Community 


INDEXES 1 


» OPTIONS | no | RESET 


Displaying documents 1 -200f21 < > C 


gat String 


"1550303444" 


"1550303454" 


“155030 


*1550303548' 


"1556383553" 


"1550405020" 


"1550400045" 


"1550409051" 


"1550485054" 


"1550485036" 


"1556485110" 


"1556485 


120" 


"1550385131" 


"155843881421" 


"1550409172" 


School String 


majors String 


Scrapybo2&le casei, 


Scrapy lE RIER n] LAFB3EKIESSSUEHXZXdm, ELEJXE ME RERA, GAH 
KFJAMARSGEERIR. ABRA ea Pythona, M 
scrapy 框 架 操 作 入 手 ， 由 浅 入 深 地 介绍 讨 虫 原理 、 数 据 爬 取 、 数 据 保 
存 和 让 虫 优化 等 技术 ， 使 读者 在 深入 运用 Python 语言 的 同时 ， 又 能 进 
入 数据 抽取 与 网 络 数据 采集 的 技术 之 | 门 ]。 
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